Instruções para o Monitoramento do OSG

Preliminares

Iniciando o monitoramento pela Web

  • Abra o Firefox no Desktop 2 e no Folder Monitoring clique em Open in Tabs.
  • No primeiro tab se abrirá o monitoramento de todas as máquinas do cluster. Mande ordenar por ordem decrescente, assim se alguma máquina estiver com o load muito alto ela aparecerá em primeiro lugar.
  • No segundo tab se abrirá o monitoramento do OSG.
  • No terceiro tab se abrirá o monitoramento de nosso dCache.
  • No quarto tab se abrirá o monitoramento do PhEDex.
  • No quinto tab se abrirá o monitoramento da rede. Vá para Internet2 onde aparecerá o monitoramento de nosso link internacional (Ampath/Abilene STM-4). Clique em estatística.

Iniciando o monitoramento dos logs dos serviços

  • No Desktop 3 abra 4 terminais e os distribua pela tela de modo que apareçam todos ao mesmo tempo.
  • Terminal A: Monitoramento do log do gatekeeper
    • [user@sprace] ssh spgrid
    • [user@spgrid] tail -f /OSG/globus/var/globus-gatekeeper.log
  • Terminal B: Monitoramento do log do PhEDex
    • [user@sprace] ssh spdc00
    • [user@spcd00] tail -f /home/phedex/logs/download-master
  • Terminal C: Monitoramento do log do dCache:
    • [user@sprace] ssh spdc00
    • [user@spdc00] tail -f /var/log/srm-spdc00Domain.log
  • Terminal D:

Durante a sessão

  • Durante o monitoramento, uma vez por hora verifique:
    • No Ganglia:
      • Se todas as maquinas estão ligadas.
      • Se algum Node tem load maior do que 3.
      • Se o load de algum dos servidores está maior que 50.
      • Se está havendo tráfego na rede. Linha verde por volta de 5 MBps.
    • No OSG o status de nosso Computing Element (SPRACE) e Storage Element (SPRACE:srm_v1):
      • Veja se todas as luzes estao verdes.
      • Clique na luz e veja se todos os testes foram bem sucedidos.
    • O funcionamento do dCache. Os links a serem monitorados são o Cell Services e o Pool Usage:
      • No link Cell Services veja se a tabela se parece com esta:
        CellName DomainName Requests Pending Threads Ping Creation Time
        DCap doorDomain 0 4 54 msec 09/19 16:03:07
        GFTP-spraid gridftp-spraidDomain 0 4 55 msec 09/19 16:07:10
        LoginBroker httpdDomain 0 2 4 msec 09/19 16:03:21
        PnfsManager pnfsDomain 0 5 17 msec 09/19 16:03:36
        PoolManager dCacheDomain 0 4 19 msec 09/19 16:02:53
        SRM-spdc00 srm-spdc00Domain 0 3 24 msec 09/19 16:03:51
        SRM-spraid srm-spraidDomain 0 3 44 msec 09/19 16:07:17
        spraid_1 spraidDomain 0 74 137 msec 09/19 16:08:32
        spraid_2 spraidDomain 0 54 135 msec 09/19 16:09:20
        spraid_3 spraidDomain 0 74 135 msec 09/19 16:09:33
        spraid_4 spraidDomain 0 84 134 msec 09/19 16:09:46
        srm-LoginBroker httpdDomain 0 2 4 msec 09/19 16:03:21
      • No link Pool Usage uma tabela como esta:
        CellName DomainName Total Space/MB Free Space/MB Precious Space/MB Layout
        spraid_1 spraidDomain 1536000 1321136 190101
        spraid_2 spraidDomain 1536000 1317930 190865
        spraid_3 spraidDomain 1536000 1320870 189242
        spraid_4 spraidDomain 1536000 1319567 185505
    • O status do PhEDex. Devemos manter funcionando os agentes FileDownload, FileExport, FilePFNExport, FileRouter e InfoDropStatus das instâncias SC4 e Production. O nome de nossa Tier 2 é T2_SPRACE.
      • No Component Status do Database CS04, verifique que o Node T2_SPRACE esteja verde.
      • No Component Status do Database Prod, verifique que o Node T2_SPRACE esteja verde.
    • AMPATH. O tráfego que chega no nosso cluster é o verde. A rede da USP está em Outros > USP (Net). Neste caso, o tráfego que chega para nós é o azul. Verifique se está passando tráfego pelo link.
    • De uma olhada em cada um dos logs, e verifique pela hora que os serviços estejam funcionando. A ocorrência de um certo número erros são normais. A ocorrência de um número grande de erros deve ser notificada.

Outros logs importantes

  • OSG:
    • Globus:
      • $VDT_LOCATION/globus/var/globus-gatekeeper.log
      • $VDT_LOCATION/globus/var/accounting.log
    • GUMS:
      • $VDT_LOCATION/tomcat/v5/logs/gums-*
    • Monalisa:
      • $VDT_LOCATION/MonaLisa/Service/VDTFarm/ML0.log
  • D-Cache:
    • Monitoring in http://spdc00.if.usp.br:2288/
    • On each dCache machines, check /var/log/*Domain.log.
    • The most important ones are
      • srm*Domain.log
      • gridftp*Domain.log
      • `hostname`*Domain.log
  • Phedex:
    • On spdc00, as user phedex, the phedex logs are found in ~/logs. The most useful is:
      • /home/phedex/logs/download-master

  • Procure em Instruções para Operação do SPRACE como realizar as ações necessárias.
  • Se não souber o que fazer, ligue para Eduardo (3177-9005) ou mande um email (email:gregores@fnal.gov)

Encerramento:

-- EduardoGregores - 18 Sep 2006

Topic revision: r3 - 2006-09-20 - EduardoGregores
 

This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2020 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort