Plantões Computacionais

COMPLETE3

Descrição

Manter os procedimentos para monitoração da farm em uma checklist para sistematizar e agilizar esse procedimento

Últimas notícias

  • [01 Novembro 2008] Jobrobot rodando bem novamente.

Table of contents

Links importantes

Tarefas para o pessoal em plantão

O plantonista deve

  1. Monitorar e reportar os problemas:O plantonista deve repassar a lista rapidamente (somente os itens com a barra verde) e, em caso de problemas, reportar ao resto do pessoal, repassando totalmente esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível.

Antes de começar

  • Verificar o Estado Geral do Cluster --- COMPLETE5
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder  Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> número de cores +1, para dar alguma folga de processamento. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 nós x 100 Mbytes/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
    • Verifique os Emails do Logwatch COMPLETE5 Mostrar instruções  Esconder  Verifique em um terminal da osg-ce os e-mails enviados pelo logwatch dos nodes
       su -
      pine
      
      Verifique principalmente o espaço em disco dos servidores principais e tentativas de acesso às máquinas. Somente necessário no início do seu plantão.
  • Verificar o Estado Geral do Computer Element COMPLETE5
    • Verifique o Load dos Servidores COMPLETE5 Mostrar instruções  Esconder  Use URL-1 para verificar um load maior do que 15, para osgce, osgse, storage01 e storage02. Caso positivo reporte.
    • Verifique o Status do OSG COMPLETE5 Mostrar instruções  Esconder  Observe a sequência de comandos abaixo e tente reproduzi-la:
      . /OSG/setup.sh
      /OSG/verify/site_verify.pl
      
      Qualquer erro neste script reporte a lista.
    • Verifique o Status do Condor COMPLETE5 Mostrar instruções  Esconder  Você deverá verificar três coisas: a primeira é se algum node não está com o condor funcionando:
      condor_status
      Verifique se todos estão listados e confira o estado ("busy" ou "idle"). A segunda é verificar se a farm não está saturada
      condor_q
      
      preste atenção a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 700, também reporte. O terceiro check é feito com
      condor_q -run|grep 2+ 
      , verificando os jobs que estão rodando com mais de dois dias na farm. Coloque o output no seu e-mail
  • Verificar o Estado Geral do Storage Element COMPLETE5 Mostrar instruções  Esconder  Verifique na URL1 se existe algum serviço não disponível. Na URL2 verifique a quantidade de espaço disponível. Alerte caso o espaço disponível seja inferior à 10 GB
    • Verifique as Transferências srm COMPLETE5 Mostrar instruções  Esconder  Teste uma transferência usando o protocolo srm, da osg-ce
       
      . /OSG/setup.sh
      grid-proxy-init
      srmcp -2 --debug=true file:////tmp/teste.sh srm://osg-se.sprace.org.br:8443/pnfs/sprace.org.br/data/mdias/teste
      srmrm srm://osg-se.sprace.org.br:8443/pnfs/sprace.org.br/data/mdias/teste
      
      . Qualquer erro relate

OSG-RSV

  • Verifique o Estado do Condor-cron COMPLETE5 Mostrar instruções  Esconder  Em um terminal verifique o status dos jobs
     condor_cron_q
    Verifique se algum job está "held" , ou se pelo menos três estão em estado "R"
  • Verifique o Estado do OSG-RSV COMPLETE5 Mostrar instruções  Esconder  Observe nossa própria monitoração URL-1 (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em URL-2. Qualquer probe em vermelho, ou as datas entre os sites não correspondem reporte para a lista.

SAM

  • Verifique o Estado dos testes do SAM COMPLETE5 Mostrar instruções  Esconder  Acompanhe o estado dos probes utilizados pelo CMS SAM utilizando esse link URL1. Qualquer cor diferente do verde por mais de 2 horas deve ser reportada. Verifique o tempo do último teste (pela cor, quanto mais claro, mais velho e passando o mouse por ele). Se for maior que 12 horas, reporte. A situação geral do site, monitorada pelo CMS center é mostrada aqui URL2

JobRobot

  • Verifique os Estado do JobRobot COMPLETE5 Mostrar instruções  Esconder  Verifique a página do JobRobot URL1. Verifique a porcentagem "EFFICIENCY" estiver abaixo de 60 % reporte
  • Verifique o Status do CEMon COMPLETE5 Mostrar instruções  Esconder  Em um node tente reproduzir os comandos abaixo
    . /OSG/setup.sh
    ldapsearch -x -LLL -p 2170 -h is.grid.iu.edu -b mds-vo-name=SPRACE,mds-vo-name=local,o=grid
    condor_status -pool osg-ress-1.fnal.gov -l -constraint "GlueCEInfoHostName == \"osg-ce.sprace.org.br\""
     
    (prepare-se para um output gigante!)

PhEDEx

  • Verifique os Agentes do PhEDEx COMPLETE5 Mostrar instruções  Esconder  Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check URL1 e URL2
  • Verifique a Qualidade de transferências no PhEDEx COMPLETE5 Mostrar instruções  Esconder  Verifique a qualidade das transferências na instância Debug URL-1 e na instância Production URL-2. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.

Comentários sobre a checklist

  • Comparar a atividade

Registro dos Plantões Efetuados

Data Nome
19/Oct/2008 Marco Dias
22/Oct/2008 Allan Szu

Lista de plantonistas disponíveis

Abaixo a lista de pessoas disponíveis e quantidade de plantões até agora
Nome Quantidade
Marco Dias 1 dia
Allan Szu 1 dia

Contatos

Revisões

Data Autor Página Modificada? Comentários
19 Outubro 2008 Marco Dias sim Criação da página

-- MarcoAndreFerreiraDias - 19 Oct 2008

Topic revision: r11 - 2009-03-04 - MarcoAndreFerreiraDias
 

This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort