Problema #605

Falha na dts02

Added by Gabriel Winckler over 8 years ago.

Status:ResolvidaStart date:03 May 2012
Priority:ImediataDue date:
Assignee:Gabriel Winckler% Done:

0%

Category:-
Target version:-

Description

No domingo a dts02 falhou.

A bios reportava um erro de overflow do hypertransport.
Mas após reboot, o sistema falhava com kernel panic na checagem do xfs do filesystem grande (18 TB).

Essa falha bloqueou o acesso de 25% dos nós, que usam seu storage via NFS (do node065 ao node128).

Tiramos (eu e o Allan) a montagem do filesystem do automático. Então o sistema iniciou, mas exibia continuamente uma mensagem de erro ECC em um dos módulos de memória.

Retiramos esse módulo (e seu par correspondente) e o sistema voltou a operar normalmente.
Como discutido anteriormente em reunião, como não é possível comprar esse módulo de memória, esse servidor ficará permanentemente com a memória reduzida, de 16GB para 12GB.

Foi criada uma entrada na seção de notícia, comunicando o fato (https://ncc.unesp.br/its/news/14).

O sistema de monitoramento não respondeu como esperado, reforçando a necessidade de uma revisão.

Also available in: Atom PDF