Difference: EntryDescriptionNo62 (1 vs. 11)

Revision 112009-03-04 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3

Revision 102009-01-29 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 65 to 65
 
  • Verifique o Estado do OSG-RSV COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Observe nossa própria monitoração URL-1 (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em URL-2. Qualquer probe em vermelho, ou as datas entre os sites não correspondem reporte para a lista.
    <--/twistyPlugin-->

SAM

Changed:
<
<
  • Verifique o Estado dos testes do SAM COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Acompanhe o estado dos probes utilizados pelo CMS SAM utilizando esse link URL1. Qualquer cor diferente do verde por mais de 2 horas deve ser reportada. Verifique o tempo do último teste (pela cor, quanto mais claro, mais velho e passando o mouse por ele). Se for maior que 12 horas, reporte. A situação geral do site, monitorada pelo CMS center é mostrada aqui URL2
    <--/twistyPlugin-->
>
>
  • Verifique o Estado dos testes do SAM COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Acompanhe o estado dos probes utilizados pelo CMS SAM utilizando esse link URL1. Qualquer cor diferente do verde por mais de 2 horas deve ser reportada. Verifique o tempo do último teste (pela cor, quanto mais claro, mais velho e passando o mouse por ele). Se for maior que 12 horas, reporte. A situação geral do site, monitorada pelo CMS center é mostrada aqui URL2
    <--/twistyPlugin-->
 

JobRobot

  • Verifique os Estado do JobRobot COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique a página do JobRobot URL1. Verifique a porcentagem "EFFICIENCY" estiver abaixo de 60 % reporte
    <--/twistyPlugin-->

Revision 92008-11-02 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 17 to 17
 

Últimas notícias

Changed:
<
<
  • [24 Outubro 2008] Jobrobot não está rodando nas farms. Problema conhecido.
>
>
  • [01 Novembro 2008] Jobrobot rodando bem novamente.
 

Table of contents

Revision 82008-10-24 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 17 to 17
 

Últimas notícias

Changed:
<
<
  • [20 Outubro 2008] Problemas no Jobrobot: Esperando resposta ao Savannah ticket #105929.
>
>
  • [24 Outubro 2008] Jobrobot não está rodando nas farms. Problema conhecido.
 

Table of contents

Line: 39 to 39
 

Antes de começar

  • Verificar o Estado Geral do Cluster --- COMPLETE5
Changed:
<
<
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> 10. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts x 100 Mbytes/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
      <--/twistyPlugin-->
>
>
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> número de cores +1, para dar alguma folga de processamento. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 nós x 100 Mbytes/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
      <--/twistyPlugin-->
 
    • Verifique os Emails do Logwatch COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Verifique em um terminal da osg-ce os e-mails enviados pelo logwatch dos nodes
       su -
      pine
      
      Verifique principalmente o espaço em disco dos servidores principais e tentativas de acesso às máquinas. Somente necessário no início do seu plantão.
      <--/twistyPlugin-->

Revision 72008-10-23 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 101 to 101
 Abaixo a lista de pessoas disponíveis e quantidade de plantões até agora
Nome Quantidade
Marco Dias 1 dia
Changed:
<
<
>
>
Allan Szu 1 dia
 

Contatos

Revision 62008-10-22 - AllanSzu

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 93 to 93
 
Data Nome
19/Oct/2008 Marco Dias
<-- /editTable -->
Added:
>
>
22/Oct/2008 Allan Szu
 </>
<--/twistyPlugin-->

Revision 52008-10-20 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 17 to 17
 

Últimas notícias

Changed:
<
<
  • [19 Set 2008] Problemas no Jobrobot
>
>
  • [20 Outubro 2008] Problemas no Jobrobot: Esperando resposta ao Savannah ticket #105929.
 

Table of contents

Revision 42008-10-20 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 35 to 35
  O plantonista deve
Changed:
<
<
  1. Monitorar e reportar os problemas:O plantonista deve repassar a lista rapidamente (somente os itens com a barra verde) e, em caso de problemas, reportar ao resto do pessoal, repassando esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível.
>
>
  1. Monitorar e reportar os problemas:O plantonista deve repassar a lista rapidamente (somente os itens com a barra verde) e, em caso de problemas, reportar ao resto do pessoal, repassando totalmente esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível.
 

Antes de começar

  • Verificar o Estado Geral do Cluster --- COMPLETE5
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> 10. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts x 100 Mbytes/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
      <--/twistyPlugin-->
Changed:
<
<
    • Verifique os Emails do Logwatch COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Verifique em um terminal da osg-ce os e-mails enviados pelo logwatch dos nodes
       
      su -
      
      
>
>
    • Verifique os Emails do Logwatch COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Verifique em um terminal da osg-ce os e-mails enviados pelo logwatch dos nodes
       su -
      
      
 pine
Changed:
<
<
Verifique principalmente o espaço em disco dos servidores principais e tentativas de acesso às máquinas.
<--/twistyPlugin-->
>
>
Verifique principalmente o espaço em disco dos servidores principais e tentativas de acesso às máquinas. Somente necessário no início do seu plantão.
<--/twistyPlugin-->
 
  • Verificar o Estado Geral do Computer Element COMPLETE5
    • Verifique o Load dos Servidores COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Use URL-1 para verificar um load maior do que 15, para osgce, osgse, storage01 e storage02. Caso positivo reporte.
      <--/twistyPlugin-->
Changed:
<
<
    • Verifique o Status do OSG COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Observe a sequência de comandos abaixo e tente reproduzi-la:
      ssh osg-ce.sprace.org.br
      . /OSG/setup.sh
      
      
>
>
    • Verifique o Status do OSG COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Observe a sequência de comandos abaixo e tente reproduzi-la:
      . /OSG/setup.sh
      
      
 /OSG/verify/site_verify.pl Qualquer erro neste script reporte a lista.
<--/twistyPlugin-->
    • Verifique o Status do Condor COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Você deverá verificar três coisas: a primeira é se algum node não está com o condor funcionando:
      
      

Revision 32008-10-19 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 52 to 52
 /OSG/verify/site_verify.pl Qualquer erro neste script reporte a lista.
<--/twistyPlugin-->
    • Verifique o Status do Condor COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Você deverá verificar três coisas: a primeira é se algum node não está com o condor funcionando:
      
      
Changed:
<
<
condor_status A segunda é verificar a quantidade de jobs que estão rodando na farm

>
>
condor_status Verifique se todos estão listados e confira o estado ("busy" ou "idle"). A segunda é verificar se a farm não está saturada

 condor_q
Changed:
<
<
verifique somente a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 1000, também reporte. O terceiro check é feito com
condor_q -run|grep 2+ 
, verificando os jobs que estão rodando com mais de dois dias na farm
<--/twistyPlugin-->
>
>
preste atenção a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 700, também reporte. O terceiro check é feito com
condor_q -run|grep 2+ 
, verificando os jobs que estão rodando com mais de dois dias na farm. Coloque o output no seu e-mail
<--/twistyPlugin-->
 
  • Verificar o Estado Geral do Storage Element COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique na URL1 se existe algum serviço não disponível. Na URL2 verifique a quantidade de espaço disponível. Alerte caso o espaço disponível seja inferior à 10 GB
    <--/twistyPlugin-->
    • Verifique as Transferências srm COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Teste uma transferência usando o protocolo srm, da osg-ce
       
      . /OSG/setup.sh
      
      
Line: 90 to 90
 
<--/twistyPlugin-->
Changed:
<
<

Inscrição para os plantões

>
>

Registro dos Plantões Efetuados

 
Changed:
<
<
<--/twistyPlugin twikiMakeVisibleInline-->
>
>
<--/twistyPlugin twikiMakeVisibleInline-->
 
Data Nome
19/Oct/2008 Marco Dias
<-- /editTable -->
Line: 108 to 108
 

Contatos

Changed:
<
<
>
>
 

Revision 22008-10-19 - MarcoAndreFerreiraDias

Line: 1 to 1
 
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3
Line: 38 to 38
 
  1. Monitorar e reportar os problemas:O plantonista deve repassar a lista rapidamente (somente os itens com a barra verde) e, em caso de problemas, reportar ao resto do pessoal, repassando esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível.

Antes de começar

Changed:
<
<
  • Verificar o Estado Geral do Cluster --- COMPLETE4
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> 5. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts vezes 100 MB/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
      <--/twistyPlugin-->
    • Verifique os Emails do Logwatch COMPLETE0 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      <--/twistyPlugin-->
  • Verificar o Estado Geral do Computer Element COMPLETE4
    • Verifique o Load da OSG-CE COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Use URL-1 para verificar um load maior do que 20. Caso positivo reporte.
      <--/twistyPlugin-->
    • Verifique o Status do OSG COMPLETE2 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Observe a sequência de comandos abaixo e tente reproduzi-la
      
      
>
>
  • Verificar o Estado Geral do Cluster --- COMPLETE5
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> 10. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts x 100 Mbytes/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
      <--/twistyPlugin-->
    • Verifique os Emails do Logwatch COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Verifique em um terminal da osg-ce os e-mails enviados pelo logwatch dos nodes
       
      su -
      pine
      
      Verifique principalmente o espaço em disco dos servidores principais e tentativas de acesso às máquinas.
      <--/twistyPlugin-->
  • Verificar o Estado Geral do Computer Element COMPLETE5
    • Verifique o Load dos Servidores COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Use URL-1 para verificar um load maior do que 15, para osgce, osgse, storage01 e storage02. Caso positivo reporte.
      <--/twistyPlugin-->
    • Verifique o Status do OSG COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Observe a sequência de comandos abaixo e tente reproduzi-la:
      
      
 ssh osg-ce.sprace.org.br . /OSG/setup.sh /OSG/verify/site_verify.pl
Changed:
<
<
Qualquer erro neste script reporte a lista.
<--/twistyPlugin-->
    • Verifique o Status do Condor COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Você deverá verificar duas coisas: a primeira é se algum node não está com o condor funcionando:
      condor_status
      . A segunda é verificar a quantidade de jobs que estão rodando na farm
      
      
>
>
Qualquer erro neste script reporte a lista.
<--/twistyPlugin-->
    • Verifique o Status do Condor COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Você deverá verificar três coisas: a primeira é se algum node não está com o condor funcionando:
      condor_status
      A segunda é verificar a quantidade de jobs que estão rodando na farm
      
      
 condor_q
Changed:
<
<
verifique somente a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 1000, também.
<--/twistyPlugin-->
>
>
verifique somente a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 1000, também reporte. O terceiro check é feito com
condor_q -run|grep 2+ 
, verificando os jobs que estão rodando com mais de dois dias na farm
<--/twistyPlugin-->
  • Verificar o Estado Geral do Storage Element COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique na URL1 se existe algum serviço não disponível. Na URL2 verifique a quantidade de espaço disponível. Alerte caso o espaço disponível seja inferior à 10 GB
    <--/twistyPlugin-->
    • Verifique as Transferências srm COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Teste uma transferência usando o protocolo srm, da osg-ce
       
      . /OSG/setup.sh
      grid-proxy-init
      srmcp -2 --debug=true file:////tmp/teste.sh srm://osg-se.sprace.org.br:8443/pnfs/sprace.org.br/data/mdias/teste
      srmrm srm://osg-se.sprace.org.br:8443/pnfs/sprace.org.br/data/mdias/teste
      
      . Qualquer erro relate
      <--/twistyPlugin-->
 

OSG-RSV

Changed:
<
<
  • Verifique o Estado do OSG-RSV COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Observe nossa própria monitoração URL-1 (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em URL-2. Qualquer probe em vermelho, ou as datas não correspondem reporte pelo e-mail.
    <--/twistyPlugin-->
>
>
  • Verifique o Estado do Condor-cron COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Em um terminal verifique o status dos jobs
     condor_cron_q
    Verifique se algum job está "held" , ou se pelo menos três estão em estado "R"
    <--/twistyPlugin-->
  • Verifique o Estado do OSG-RSV COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Observe nossa própria monitoração URL-1 (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em URL-2. Qualquer probe em vermelho, ou as datas entre os sites não correspondem reporte para a lista.
    <--/twistyPlugin-->

SAM

  • Verifique o Estado dos testes do SAM COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Acompanhe o estado dos probes utilizados pelo CMS SAM utilizando esse link URL1. Qualquer cor diferente do verde por mais de 2 horas deve ser reportada. Verifique o tempo do último teste (pela cor, quanto mais claro, mais velho e passando o mouse por ele). Se for maior que 12 horas, reporte. A situação geral do site, monitorada pelo CMS center é mostrada aqui URL2
    <--/twistyPlugin-->
 
Added:
>
>

JobRobot

  • Verifique os Estado do JobRobot COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique a página do JobRobot URL1. Verifique a porcentagem "EFFICIENCY" estiver abaixo de 60 % reporte
    <--/twistyPlugin-->
  • Verifique o Status do CEMon COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Em um node tente reproduzir os comandos abaixo
    . /OSG/setup.sh
    ldapsearch -x -LLL -p 2170 -h is.grid.iu.edu -b mds-vo-name=SPRACE,mds-vo-name=local,o=grid
    condor_status -pool osg-ress-1.fnal.gov -l -constraint "GlueCEInfoHostName == \"osg-ce.sprace.org.br\""
     
    (prepare-se para um output gigante!)
    <--/twistyPlugin-->
 

PhEDEx

Changed:
<
<
  • Verifique os Agentes do PhEDEx COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check URL1 e URL2
    <--/twistyPlugin-->
>
>
  • Verifique os Agentes do PhEDEx COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check URL1 e URL2
    <--/twistyPlugin-->
 
  • Verifique a Qualidade de transferências no PhEDEx COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique a qualidade das transferências na instância Debug URL-1 e na instância Production URL-2. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.
    <--/twistyPlugin-->
Deleted:
<
<
  • Verifique a Taxa de transferências no PhEDEx COMPLETE1 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique a qualidade das transferências na instância Debug URL-1 e na instância Production URL-2. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.
    <--/twistyPlugin-->
 

Comentários sobre a checklist

<--/twistyPlugin twikiMakeVisibleInline-->

Revision 12008-10-19 - MarcoAndreFerreiraDias

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="LogBook"

Plantões Computacionais

COMPLETE3

Descrição

Manter os procedimentos para monitoração da farm em uma checklist para sistematizar e agilizar esse procedimento

Últimas notícias

  • [19 Set 2008] Problemas no Jobrobot

Table of contents

Links importantes

Tarefas para o pessoal em plantão

O plantonista deve

  1. Monitorar e reportar os problemas:O plantonista deve repassar a lista rapidamente (somente os itens com a barra verde) e, em caso de problemas, reportar ao resto do pessoal, repassando esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível.

Antes de começar

  • Verificar o Estado Geral do Cluster --- COMPLETE4
    • Faça o Monitoramento pelo Ganglia COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Reporte a quantidade de nós "down" que você vê em URL-1. Verifique se algum node possui load> 5. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts vezes 100 MB/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.
      <--/twistyPlugin-->
    • Verifique os Emails do Logwatch COMPLETE0 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      <--/twistyPlugin-->
  • Verificar o Estado Geral do Computer Element COMPLETE4
    • Verifique o Load da OSG-CE COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Use URL-1 para verificar um load maior do que 20. Caso positivo reporte.
      <--/twistyPlugin-->
    • Verifique o Status do OSG COMPLETE2 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Observe a sequência de comandos abaixo e tente reproduzi-la
      ssh osg-ce.sprace.org.br
      . /OSG/setup.sh
      /OSG/verify/site_verify.pl
      
Qualquer erro neste script reporte a lista.
<--/twistyPlugin-->
    • Verifique o Status do Condor COMPLETE5 Mostrar instruções  Esconder 
      <--/twistyPlugin twikiMakeVisibleInline-->
      Você deverá verificar duas coisas: a primeira é se algum node não está com o condor funcionando:
      condor_status
      . A segunda é verificar a quantidade de jobs que estão rodando na farm
      condor_q
      
      verifique somente a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 1000, também.
      <--/twistyPlugin-->
  • Verificar o Estado Geral do Storage Element COMPLETE3 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    <--/twistyPlugin-->

OSG-RSV

  • Verifique o Estado do OSG-RSV COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Observe nossa própria monitoração URL-1 (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em URL-2. Qualquer probe em vermelho, ou as datas não correspondem reporte pelo e-mail.
    <--/twistyPlugin-->

PhEDEx

  • Verifique os Agentes do PhEDEx COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check URL1 e URL2
    <--/twistyPlugin-->
  • Verifique a Qualidade de transferências no PhEDEx COMPLETE5 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique a qualidade das transferências na instância Debug URL-1 e na instância Production URL-2. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.
    <--/twistyPlugin-->
  • Verifique a Taxa de transferências no PhEDEx COMPLETE1 Mostrar instruções  Esconder 
    <--/twistyPlugin twikiMakeVisibleInline-->
    Verifique a qualidade das transferências na instância Debug URL-1 e na instância Production URL-2. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.
    <--/twistyPlugin-->

Comentários sobre a checklist

<--/twistyPlugin twikiMakeVisibleInline-->
  • Comparar a atividade
<--/twistyPlugin-->

<--/twistyPlugin twikiMakeVisibleInline-->
<--/twistyPlugin-->

Inscrição para os plantões

<--/twistyPlugin twikiMakeVisibleInline-->

Data Nome
19/Oct/2008 Marco Dias
<-- /editTable -->
<--/twistyPlugin-->

Lista de plantonistas disponíveis

Abaixo a lista de pessoas disponíveis e quantidade de plantões até agora
Nome Quantidade
Marco Dias 1 dia

Contatos

Revisões

<--/twistyPlugin twikiMakeVisibleInline-->
Data Autor Página Modificada? Comentários
19 Outubro 2008 Marco Dias sim Criação da página
<--/twistyPlugin-->

<-- 
  • Set Completo_0_ = COMPLETE0
  • Set Completo_1_ = COMPLETE1
  • Set Completo_2_ = COMPLETE2
  • Set Completo_3_ = COMPLETE3
  • Set Completo_4_ = COMPLETE4
  • Set Completo_5_ = COMPLETE5
-->

-- MarcoAndreFerreiraDias - 19 Oct 2008

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2020 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort