Plantões Computacionais
Descrição
Manter os procedimentos para monitoração da farm em uma checklist para sistematizar e agilizar esse procedimento
Últimas notícias
- [19 Set 2008] Problemas no Jobrobot
Table of contents
Nessa Twiki você encontrará:
|
Links importantes
|
Tarefas para o pessoal em plantão
O plantonista deve
- Monitorar e reportar os problemas:O plantonista deve repassar a lista rapidamente (somente os itens com a barra verde) e, em caso de problemas, reportar ao resto do pessoal, repassando esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível.
Antes de começar
- Verificar o Estado Geral do Cluster ---
- Faça o Monitoramento pelo Ganglia
Mostrar instruções
Esconder
Reporte a quantidade de nós "down" que você vê em URL-1
. Verifique se algum node possui load> 5. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts vezes 100 MB/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
- Verifique os Emails do Logwatch
Mostrar instruções
Esconder
- Verificar o Estado Geral do Computer Element
- Verifique o Load da OSG-CE
Mostrar instruções
Esconder
Use URL-1
para verificar um load maior do que 20. Caso positivo reporte.
- Verifique o Status do OSG
Mostrar instruções
Esconder
Observe a sequência de comandos abaixo e tente reproduzi-lassh osg-ce.sprace.org.br
. /OSG/setup.sh
/OSG/verify/site_verify.pl
Qualquer erro neste script reporte a lista.
-
- Verifique o Status do Condor
Mostrar instruções
Esconder
Você deverá verificar duas coisas: a primeira é se algum node não está com o condor funcionando:condor_status
. A segunda é verificar a quantidade de jobs que estão rodando na farmcondor_q
verifique somente a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 1000, também.
- Verificar o Estado Geral do Storage Element
Mostrar instruções
Esconder
OSG-RSV
- Verifique o Estado do OSG-RSV
Mostrar instruções
Esconder
Observe nossa própria monitoração URL-1
(valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em URL-2
. Qualquer probe em vermelho, ou as datas não correspondem reporte pelo e-mail.
PhEDEx
- Verifique os Agentes do PhEDEx
Mostrar instruções
Esconder
Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check URL1
e URL2
- Verifique a Qualidade de transferências no PhEDEx
- Verifique a Taxa de transferências no PhEDEx
Mostrar instruções
Esconder
Verifique a qualidade das transferências na instância Debug URL-1
e na instância Production URL-2
. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.
Comentários sobre a checklist
Inscrição para os plantões
Lista de plantonistas disponíveis
Abaixo a lista de pessoas disponíveis e quantidade de plantões até agora
Contatos
Revisões
-- MarcoAndreFerreiraDias - 19 Oct 2008