Tags:
, view all tags

Plantões Computacionais

COMPLETE3

Descrição

Manter os procedimentos para monitoração da farm em uma checklist para sistematizar e agilizar esse procedimento

Últimas notícias

  • [19 Set 2008] Problemas no Jobrobot

Table of contents

Links importantes

Tarefas para o pessoal em plantão

O plantonista deve

  1. Monitorar e reportar os problemas:O plantonista deve repassar a lista rapidamente (somente os itens com a barra verde) e, em caso de problemas, reportar ao resto do pessoal, repassando esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível.

Antes de começar

  • Verificar o Estado Geral do Cluster --- COMPLETE4
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder  Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> 5. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts vezes 100 MB/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
    • Verifique os Emails do Logwatch COMPLETE0 Mostrar instruções  Esconder 
  • Verificar o Estado Geral do Computer Element COMPLETE4
Qualquer erro neste script reporte a lista.
    • Verifique o Status do Condor COMPLETE5 Mostrar instruções  Esconder  Você deverá verificar duas coisas: a primeira é se algum node não está com o condor funcionando:
      condor_status
      . A segunda é verificar a quantidade de jobs que estão rodando na farm
      condor_q
      
      verifique somente a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 1000, também.
  • Verificar o Estado Geral do Storage Element COMPLETE3 Mostrar instruções  Esconder 

OSG-RSV

  • Verifique o Estado do OSG-RSV COMPLETE5 Mostrar instruções  Esconder  Observe nossa própria monitoração URL-1 (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em URL-2. Qualquer probe em vermelho, ou as datas não correspondem reporte pelo e-mail.

PhEDEx

  • Verifique os Agentes do PhEDEx COMPLETE5 Mostrar instruções  Esconder  Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check URL1 e URL2
  • Verifique a Qualidade de transferências no PhEDEx COMPLETE5 Mostrar instruções  Esconder  Verifique a qualidade das transferências na instância Debug URL-1 e na instância Production URL-2. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.
  • Verifique a Taxa de transferências no PhEDEx COMPLETE1 Mostrar instruções  Esconder  Verifique a qualidade das transferências na instância Debug URL-1 e na instância Production URL-2. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.

Comentários sobre a checklist

  • Comparar a atividade

Inscrição para os plantões

Data Nome
19/Oct/2008 Marco Dias

Lista de plantonistas disponíveis

Abaixo a lista de pessoas disponíveis e quantidade de plantões até agora
Nome Quantidade
Marco Dias 1 dia

Contatos

Revisões

Data Autor Página Modificada? Comentários
19 Outubro 2008 Marco Dias sim Criação da página

-- MarcoAndreFerreiraDias - 19 Oct 2008

Edit | Attach | Print version | History: r11 | r4 < r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions...
Topic revision: r1 - 2008-10-19 - MarcoAndreFerreiraDias
 

This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort