News

Falha em um dos servidores de armazenamento

Added by Gabriel Winckler over 7 years ago

Detectamos hoje que um dos quatro servidores de armazenamento falhou por um problema em um dos módulos de memória.

A falha ocorreu no domingo e afetou 25% dos nós de processamento, mas apenas para processos que utilizam o /store (LARGE_FILES=true).

Ainda estamos observando, porém acreditamos que a situação foi normalizada.

Em decorrência dessa falha, a fila de processamento está ligeiramente acima do normal, mas deve se estabilizar em breve.

Falha elétrica no Datacenter

Added by Gabriel Winckler over 7 years ago

Nessa madrugada, por volta da 01:30, ocorreram falhas no fornecimento de energia do campus da Barra Funda.
O sistema de nobreak e gerador foram iniciados automaticamente, porém a energia não foi restabelecida em tempo.
Nesse momento ainda não sabemos dizer se o problema foi uma falta de energia prolongada ou um problema no painel de chaveamento do gerador.

Em consequência disso, todos os servidores foram desligados.

Os servidores do GridUNESP já foram religados e estão operando normalmente.
Os servidores do SPRACE estão sendo restabelecidos.

Pedimos desculpas pelo inconveniente,
Estamos a disposição para esclarecer qualquer dúvida,

Equipe NCC/UNESP

Erro globus-url-copy

Added by Gabriel Winckler over 7 years ago

Alguns usuários reportaram problemas com a cópia de arquivos e mensagens de erro:

globus-url-copy: error while loading shared libraries:
libglobus_gass_transfer.so.2: cannot open shared object file: Error
116

Esse erro foi detectado em alguns nós, em decorrência de um update
aplicado ontem a tarde.
O problema já foi corrigido e não deve ser mais encontrado.

Jobs que continuam em execução ou estão na fila deve executar normalmente.
Jobs que já terminaram, com erro, precisarão ser ressubmetidos.

Caso ainda tenham problemas, avisem.
Pedimos desculpas pelo inconveniente.

Update de versão de OSG

Added by Allan Szu over 7 years ago

A access, compute element, storage element, e demais servidores pertencentes ao Grid foram atualizados para a versão mais recente: OSG 3.0.10

GO: atualização do template do Gaussian

Added by Gabriel Winckler over 7 years ago

O template do gaussian foi atualizado para corrigir um erro quando se solicitava LARGE_FILES em modo SMP.

Como o template foi bastante alterado, pedimos que qualquer comportamento estranho, em qualquer simulação Gaussian seja informado.

Correção no Update (1 comment)

Added by Gabriel Winckler over 7 years ago

O update aplicado em 29/02 introduziu um erro, onde os status de alguns jobs não eram informados de volta para o condor_g, na access. Os jobs eram processados corretamente, apenas os seus status não mudaram de I (idle).

O problema já foi corrigido, porém jobs submetidos nesse intervalo não receberão atualizações.

Update de versão de OSG

Added by Allan Szu over 7 years ago

A access , compute element e storage element foram atualizados para a versão mais recente: OSG 3.0.8

Dirac 11

Added by Gabriel Winckler over 7 years ago

O Dirac 11 (http://wiki.chem.vu.nl/dirac/index.php/Dirac_Program) foi instalado e está disponível para todos os usuários do GridUNESP.

Instabilidade na rede

Added by Gabriel Winckler almost 8 years ago

A rede que atende ao GridUNESP voltou a apresentar instabilidade.
O problema está sendo investigado pelos responsáveis.

Processos zombies

Added by Gabriel Winckler almost 8 years ago

Em 7 servidores de processamentos foram encontrados processos remanescentes de outras simulações (zombies). Eles foram encerrados, mas devem ter impactado a performance de algumas simulações.

1 2 3 4 (21-30/34)

Also available in: Atom