Difference: EduardoSpraceOsgMonitoring (2 vs. 3)

Revision 32006-09-20 - EduardoGregores

Line: 1 to 1
 
META TOPICPARENT name="EduardoGregores"

Instruções para o Monitoramento do OSG

Changed:
<
<

Prodedimentos

Preliminares

>
>

Preliminares

 
  • Use uma maquina Linux, de preferência o console da SPRACE, que é grande.
  • Use o Firefox. Fica mais fácil pois possue tabs.
  • No Firefox, clique com o botão da direita na barra de links e crie um folder (e.g. Monitoring).
Line: 21 to 20
 
    • Desktop 3 para monitoramento dos logs.
    • Desktop 4 para abrir os terminais de trabalho.
  • Para abrir o ambiente gráfico na SPRACE, logue-se no console em modo texto e depois digite
Changed:
<
<
    • =[user@sprace] startx
>
>
    • [user@sprace] startx
 
Changed:
<
<

Iniciando o monitoramento pela Web

>
>

Iniciando o monitoramento pela Web

 
  • Abra o Firefox no Desktop 2 e no Folder Monitoring clique em Open in Tabs.
  • No primeiro tab se abrirá o monitoramento de todas as máquinas do cluster. Mande ordenar por ordem decrescente, assim se alguma máquina estiver com o load muito alto ela aparecerá em primeiro lugar.
Changed:
<
<
  • No segundo tab se abrirá o monitoramento do OSG mostrando nosso Computing Element (SPRACE) e o Storage Element (SPRACE:srm_v1).
  • No terceiro tab se abrirá o monitoramento de nosso dCache. Os links a serem monitorados são o Cell Services e o Pool Usage.
  • No quarto tab se abrirá o monitoramento do PhEDex. Devemos manter funcionando os agentes FileDownload, FileExport, FilePFNExport, FileRouter e InfoDropStatus das instâncias SC4 e Production. O nome de nossa Tier 2 é T2_SPRACE.
  • No quinto tab se abrirá o monitoramento da rede. Vá para Internet2 onde aparecerá o monitoramento de nosso link internacional (Ampath/Abilene STM-4). Clique em estatística. O tráfego que chega no nosso cluster é o verde. A rede da USP está em Outros > USP (Net). Neste caso, o tráfego que chega para nós é o azul.
>
>
  • No segundo tab se abrirá o monitoramento do OSG.
  • No terceiro tab se abrirá o monitoramento de nosso dCache.
  • No quarto tab se abrirá o monitoramento do PhEDex.
  • No quinto tab se abrirá o monitoramento da rede. Vá para Internet2 onde aparecerá o monitoramento de nosso link internacional (Ampath/Abilene STM-4). Clique em estatística.
 
Changed:
<
<

Iniciando o monitoramento dos logs dos serviços

>
>

Iniciando o monitoramento dos logs dos serviços

 
  • No Desktop 3 abra 4 terminais e os distribua pela tela de modo que apareçam todos ao mesmo tempo.
  • Terminal A: Monitoramento do log do gatekeeper
    • [user@sprace] ssh spgrid
    • [user@spgrid] tail -f /OSG/globus/var/globus-gatekeeper.log
  • Terminal B: Monitoramento do log do PhEDex
    • [user@sprace] ssh spdc00
Changed:
<
<
    • =[user@spcd00] tail -f /home/phedex/logs/download-master
>
>
    • [user@spcd00] tail -f /home/phedex/logs/download-master
 
  • Terminal C: Monitoramento do log do dCache:
    • [user@sprace] ssh spdc00
Changed:
<
<
    • =[user@spdc00] tail -f /var/log/srm-spdc00Domain.log
>
>
    • [user@spdc00] tail -f /var/log/srm-spdc00Domain.log
 
  • Terminal D:
Deleted:
<
<

Durante a sessão

 
Changed:
<
<

Encerramento da sessão

Problemas e Soluções

>
>

Durante a sessão

  • Durante o monitoramento, uma vez por hora verifique:
    • No Ganglia:
      • Se todas as maquinas estão ligadas.
      • Se algum Node tem load maior do que 3.
      • Se o load de algum dos servidores está maior que 50.
      • Se está havendo tráfego na rede. Linha verde por volta de 5 MBps.
    • No OSG o status de nosso Computing Element (SPRACE) e Storage Element (SPRACE:srm_v1):
      • Veja se todas as luzes estao verdes.
      • Clique na luz e veja se todos os testes foram bem sucedidos.
    • O funcionamento do dCache. Os links a serem monitorados são o Cell Services e o Pool Usage:
      • No link Cell Services veja se a tabela se parece com esta:
        CellName DomainName Requests Pending Threads Ping Creation Time
        DCap doorDomain 0 4 54 msec 09/19 16:03:07
        GFTP-spraid gridftp-spraidDomain 0 4 55 msec 09/19 16:07:10
        LoginBroker httpdDomain 0 2 4 msec 09/19 16:03:21
        PnfsManager pnfsDomain 0 5 17 msec 09/19 16:03:36
        PoolManager dCacheDomain 0 4 19 msec 09/19 16:02:53
        SRM-spdc00 srm-spdc00Domain 0 3 24 msec 09/19 16:03:51
        SRM-spraid srm-spraidDomain 0 3 44 msec 09/19 16:07:17
        spraid_1 spraidDomain 0 74 137 msec 09/19 16:08:32
        spraid_2 spraidDomain 0 54 135 msec 09/19 16:09:20
        spraid_3 spraidDomain 0 74 135 msec 09/19 16:09:33
        spraid_4 spraidDomain 0 84 134 msec 09/19 16:09:46
        srm-LoginBroker httpdDomain 0 2 4 msec 09/19 16:03:21
      • No link Pool Usage uma tabela como esta:
        CellName DomainName Total Space/MB Free Space/MB Precious Space/MB Layout
        spraid_1 spraidDomain 1536000 1321136 190101
        spraid_2 spraidDomain 1536000 1317930 190865
        spraid_3 spraidDomain 1536000 1320870 189242
        spraid_4 spraidDomain 1536000 1319567 185505
    • O status do PhEDex. Devemos manter funcionando os agentes FileDownload, FileExport, FilePFNExport, FileRouter e InfoDropStatus das instâncias SC4 e Production. O nome de nossa Tier 2 é T2_SPRACE.
      • No Component Status do Database CS04, verifique que o Node T2_SPRACE esteja verde.
      • No Component Status do Database Prod, verifique que o Node T2_SPRACE esteja verde.
    • AMPATH. O tráfego que chega no nosso cluster é o verde. A rede da USP está em Outros > USP (Net). Neste caso, o tráfego que chega para nós é o azul. Verifique se está passando tráfego pelo link.
    • De uma olhada em cada um dos logs, e verifique pela hora que os serviços estejam funcionando. A ocorrência de um certo número erros são normais. A ocorrência de um número grande de erros deve ser notificada.

Outros logs importantes

  • OSG:
    • Globus:
      • $VDT_LOCATION/globus/var/globus-gatekeeper.log
      • $VDT_LOCATION/globus/var/accounting.log
    • GUMS:
      • $VDT_LOCATION/tomcat/v5/logs/gums-*
    • Monalisa:
      • $VDT_LOCATION/MonaLisa/Service/VDTFarm/ML0.log
  • D-Cache:
    • Monitoring in http://spdc00.if.usp.br:2288/
    • On each dCache machines, check /var/log/*Domain.log.
    • The most important ones are
      • srm*Domain.log
      • gridftp*Domain.log
      • `hostname`*Domain.log
  • Phedex:
    • On spdc00, as user phedex, the phedex logs are found in ~/logs. The most useful is:
      • /home/phedex/logs/download-master

  • Procure em Instruções para Operação do SPRACE como realizar as ações necessárias.
  • Se não souber o que fazer, ligue para Eduardo (3177-9005) ou mande um email (email:gregores@fnal.gov)

Encerramento:

  -- EduardoGregores - 18 Sep 2006 \ No newline at end of file
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2021 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort