Desligar e Ligar a Farm.

Description

Desligar

1)Desligue o gatekeeper (na osg-ce) para que a farm não receba mais jobs:

/etc/init.d/xinetd stop
2)desligue os pools do dcache (spraid01 e spraid02)
/opt/d-cache/bin/dcache stop
3)Desligue o PhEDEx na osg-se
su -
su - phedex
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Debug stop
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Prod stop
exit
4)Desligue o dCache e o chimera na osg-se , como root
/opt/d-cache/bin/dcache stop
/etc/init.d/chimera-nfs-run.sh stop
Feito isso você pode desligar a spraid01, spraid02 e osg-se.
 shutdown -h now
5)Desligue o condor nos nodes, a partir da osg-ce como root:
clcmd /etc/init.d/condor stop
6)desligue os nodes
clcmd shutdown -h now
7)desligue a access
shutdown -h now
8)desligue a osg-ce
shutdown -h now

Ligando a farm

Os serviços iniciam automaticamente e se houver algum problema na inicialização de serviços, podemos iniciá-los manualmente:

1) Ligue a spserv01. Os serviços iniciam automaticamente e se houver algum problema na inicialização de serviços podemos iniciá-los manualmente:

Neste servidor são necessários os seguintes serviços:

NTP

/etc/init.d/ntpd restart

NIS

/etc/init.d/ypserv restart

Squid do CMS:

/etc/init.d/frontier-squid.sh start

Gateway do 192.168.1.0

/etc/init.d/firewall restart

GUMS Server

/etc/init.d/mysql5 start
/etc/init.d/tomcat-55 start
/etc/init.d/apache start

OSG-RSV (condor-cron)

/etc/init.d/condor-cron start
/etc/init.d/osg-rsv start

Visualização do GUMS-RSV:

https://spserv01.sprace.org.br:8443/gums
https://spserv01.sprace.org.br:8443/rsv

Instalação dos nós via kick start DHCP, TFTP, mirror do S.L.

Nagios e CacTI

/etc/init.d/nagios start
/etc/init.d/httpd start

Podemos ver na página se está tudo OK:

https://spserv01.sprace.org.br/nagios

2) Ligue a osg-ce e verifique se todos os serviços subiram corretamente. Restarte os problemáticos, como o /etc/init.d/ntp.

DNS (named - sprace.org.br)

/etc/init.d/named restart

GATEKEEPER
Estes serviços iniciam automaticamente: globus, CeMon, BDII, mysql, tomcat-55, Globus-WS, Monalisa (mld)

Parando o gatekeeper (para impedir entrada de jobs para processsamento)

/etc/init.d/xinetd stop 

Condor Master (condor_q; condor_status)

/etc/init.d/condor start

Acompanhe os logs para verificar se está tudo OK:

tail -f /scratch/condor/log/MasterLog

3)Ligue a access . Certifique-se que o /home_osgce, /home/OSG_app e o /OSG estão montados. Inicie o condor nesta máquina com /etc/init.d/condor start . Certifique-se, com um ps -afx, se o httpd está rodando, pois ele é necessário para os servicos do pingER . Caso não,

/etc/init.d/httpd restart
Confirmado isso retorne a osg-ce e monte o /hdacs
mount /hdacs
clcmd mount /hdacs

4)Ligue os nodes de processamento, verifique se todos estão montando o /OSG corretamente . Ligue o condor e monte o hdacs - isso já está automatizado. Se houver algum problema:

clcmd /etc/init.d/condor start 
clcmd mount /hdacs 

5)Tudo correndo bem, ligue o gatekeeper (verifique se ele não está ligado antes!)

/etc/init.d/xinetd start
Verificar se está tudo OK:
/OSG/verify/site_verify.pl 

6)Ligue a osg-se. Verifique se os serviços subiram corretamente e após verificar se a máquina montou o diretório de certificados da ce, /OSG/globus/TRUSTED_CA aumente o número de arquivos abertos que a máquina pode ter e reinicie os servicos:

ulimit -n 32000
/etc/init.d/postgresql restart
/etc/init.d/chimera-nfs-run.sh
/opt/d-cache/bin/dcache start
Se você tiver algum problema com o java ao inicializar, tente reiniciar a sequencia acima novamente.

Para publicar informações sobre o storage para o CMS (infoDomain):

/opt/d-cache/bin/dcache start info

7) Ligue a spraid01 e spraid02. Verifique se elas montaram corretamente o /OSG/globus/TRUSTED_CA . Inicie o dcache

ulimit -n 3200
/opt/d-cache/bin/dcache start

Acompanhar o log:

 tail -f /var/log/spraid0NDomain.log

pela web: http://osg-se.sprace.org.br:2288/UsageInfo

8)Volte a osg-se. Ligue o PhEDEx:

su -
su - phedex
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Debug start
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Prod start
exit

Fulano em dd/mm/aaaa

Coloca o que fez.

Ciclano em dd/mm/aaaa

Mais comentarios

-- AllanSzu - 06 Jan 2010
-- MarcoAndreFerreiraDias - 09 Nov 2008

Topic revision: r4 - 2010-01-19 - MarcoAndreFerreiraDias
 

This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2023 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort