Tags:
, view all tags

Workers com Load alto

Description

Um caminho da investigacao seria, por exemplo, o seguinte:

1. Identificar nodes com load1 > numero de cores + 1, para dar uma margem de processamento do sistema.

2. Verificar com condor_q -run | grep node# quais sao os jobs que estao rodando nesse node e há quanto tempo estao rodando. Jobs com mais de um dia de processamento são suspeitos.

3. Investigar o conteudo desses jobs com condor_q -l e ver há quanto tempo seu output não é atualizado, e dar uma lida no output para ver se há algo estranho.

4. Ir no node em questao e ver quantos jobs estao rodando com o ps faux, olhando quantas arvores de processos estao abertas. Verificar se existem processos associados a eles em estado "D" que ficam assim por varios minutos.

5. Ir no /scratch/OSG, identificar o diretorio onde esses jobs estao rodando, entrar nos diretorios e ver a evolucao desses jobs para ver se estao de fato parados, se a comunicacao com o servico esta caida, ou o que.

6. Anotar o que esta causando a falha no job para ver se é um problema a ser resolvida no ambito da SPRACE ou se não pertence a nós.

7. Se for causado pela gente, inicia-se uma nova investigacao para ver como consertar isso.

8. Se não for problema nosso, anotar o que está acontecendo e escrever um email para a lista do uscms relatando o ocorrido e apresentar o problema na reunião do USCMS para que o submetidor do job possa saber que o job esta quebrando na farm e que alguma acao possa ser adotada.

9. Depois de identificar o que pode estar causando o problema, se for o caso cancelar o job removendo-o da fila do condor com condor_rm . O condor se encarrega de derrubar tudo. Os jobs entram eventualmente em estado "X" no condor, quando a comunicacao com o job esta irremediavelmente comprometida. Nesse caso ele tem que ser removido com a diretiva "-forcex".

É importante notar que apenas matar o job não ajuda, pois a partir do momento que ele esta cancelado perdemos as informacoes sobre ele, com grandes chances do problema voltar a se repetir.

Edit | Attach | Print version | History: r4 < r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions...
Topic revision: r1 - 2007-12-07 - MarcoAndreFerreiraDias
 

This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort