r1 - 25 May 2009 - 18:14:01 - GabrielWincklerYou are here: TWiki >  Main Web > Gridunesp > EquipeTecnica > EquipeOperacional

Equipe Técnica (Operacional)

Essa página discute a divisão de trabalho e responsabilidades entre os membros da equipe técnica responsável pela parte operacional do Datacenter e os cluster/grid GridUNESP e SPRACE. Foi considerado que será uma única equipe que vai administrar todos esses recursos.

A divisão será baseada em papeis ("roles"). Sobre os papeis:

  • Cada papel deve ser ocupado por duas pessoas: um responsável e um suplente
  • Quando houver diferença de conhecimento entre o responsável e o suplente, deve-se usar as atividades cotidianas como parte do treinamento.
  • Nenhuma pessoa pode ser responsável por mais de 1 papel.
  • Não poderá haver cruzamento( A ser responsável do papel 1, tendo B como seu suplente e B responsável pelo papel 2 tendo A como seu suplente).
  • O suplente deve ser trocado a cada período (2 ou 3 meses).
  • O responsável não pode ficar com o mesmo papel por mais de três períodos.
  • Um papel deve ser estimado para ocupar até 60% da carga de trabalho de uma pessoa.

Nota: Não gosto do termo suplente (nem imediato). Não deve implicar que exista uma relação hierárquica. Ajudem com sugestões

Papeis

Hoje são previstos 4 papeis, exigindo uma equipe com no mínimo 4 pessoas e no máximo 8.

Hardware:

  • Manter/substituir todo o hardware (GridUNESP, SPRACE, ServicosCompartilhados)
  • Contato com fornecedores para troca/compra de peças de reposição
  • Gerenciamento da rede ("camada 1 e 2")
  • Métricas e alarmes:
    • Temperatura
    • Falha de disco/RAID
    • Tráfego de rede

S.O. ou Cluster:

  • Manter atualizado e operacional todos os nós e servidores (GridUNESP, SPRACE, mas NÃO ServicosCompartilhados)
  • Replicar os servidores GridUNESP para o interior
  • Manter o LDAP ativo e replicado
  • ?? Responsável pelo Condor
  • "Responsável por todos os comandos RPM ou YUM"
  • Métricas:
    • Uptime
    • Vulnerabilidades
    • CPU / Memória / Disk Load

Middleware de Grid:

  • Manter o stack OSG atualizado e operacional
  • Reuniões OSG
  • Gerenciamento dos storages OSG
  • "Responsável por todos os comandos pacman"
  • Métricas e alarmes:
    • OSG (Monalisa, .....)

ServicosCompartilhados:

  • Manter (incluindo S.O.) todos os ServicosCompartilhados do Datacenter
  • Gerenciar usuários e grupos
  • Gerenciar a C.A. (quando houver uma)

-- GabrielWinckler - 25 May 2009

Edit | WYSIWYG | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r1 | More topic actions
 
Home
This site is powered by the TWiki collaboration platformCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback