Episódio 4: Incidentes Que Testaram Nossos Limites (e o que aprendemos com eles)
Trabalhar em um data center de missão crítica é viver entre procedimentos bem definidos e variáveis que fogem ao controle. Por mais que tudo seja planejado ao milímetro, incidentes acontecem e quando surgem, revelam não apenas a robustez da infraestrutura, mas principalmente o preparo da equipe.
Hoje quero compartilhar alguns dos momentos mais marcantes que vivenciei, onde cada segundo exigiu foco, sangue-frio e tomada de decisão rápida (o verdadeiro sentido de trabalhar sobre pressão). É precisamente neste momento em que a rotina se transforma em um teste.
Quando o gerador não arrancou após o corte da rede
Durante um corte inesperado de energia da rede pública (EDM), um dos geradores que deveria assumir automaticamente os 50% da carga, simplesmente não arrancou ou seja não entrou em operação como o esperado.
Essa situação exigiu uma resposta imediata, para não sobrecarregar os UPS por muito tempo, realizamos a transferência manual de carga (através do interlock), direcionando o fornecimento para outro transformador, garantindo assim que todos os sistemas críticos permanecessem alimentados.
Com a estabilidade momentaneamente restaurada, iniciamos imediatamente a investigação da falha:
- Verificamos a tensão das baterias, que estavam dentro dos parâmetros normais e devidamente carregadas.
- Verificamos também o nível de combustível, que estava em ordem, sem vazamentos, e com os filtros em boas condições.
- Inspecionamos o sistema de arrefecimento, incluindo o fluido anti-freeze, tudo aparentemente em perfeitas condições.
Mesmo assim, o gerador continuava a apresentar falhas na partida. A cada tentativa, ele iniciava o ciclo de ignição, mas logo desligava. Um ruído incomum durante o processo chamou nossa atenção e foi a pista certa.
Após uma análise mais aprofundada, confirmamos: havia ar no sistema de combustível, o que comprometia o fluxo contínuo de diesel até a câmara de combustão, dificultando a ignição e a queima de combustível adequada.
As consequências desse tipo de falha são críticas, tendo geralmente os seguintes sintomas:
- Dificuldades na partida
- Paradas intermitentes do motor
- Redução de potência e risco de falha total
A origem foi então identificada, que era o tubo de sucção de combustível que estava comprometido e que permitia a entrada de ar no sistema. A solução exigiu a substituição imediata do tubo danificado e a sangria completa da linha para remover o ar residual.
Só então o gerador voltou a funcionar normalmente.
Lição: Mesmo com os parâmetros aparentemente em ordem, é preciso confiar nos próprios sentidos e investigar além dos dados.
Falha no AVR, o regulador de tensão
Em outro momento crítico, enfrentamos problemas com o AVR (Automatic Voltage Regulator) de um dos geradores. Os sintomas eram sutis no início, factores como flutuação de tensão e comportamento instável. Após vários testes, identificamos o AVR como origem do problema, essa falha impedia inclusive o acesso ao contador de horas do gerador (uma feature que permite verificar quantas horas o gerador tem de funcionamento).
Para esse caso, a solução foi de substituir esse dispositivo por outro novo, e depois disso o gerador voltou a funcionar na sua normalidade.
Mau contacto nas baterias
Um dos incidentes aparentemente simples, mas potencialmente críticos, foi uma falha de arranque em um dos geradores aparentemente causada por mau contacto nas baterias.
Esse tipo de problema pode ocorrer devido a corrosão nos bornes, cabos soltos ou danificados, ou ainda por sulfatação nas placas, que dificulta a passagem de corrente eléctrica e compromete o fornecimento de energia ao motor de partida.
Ao identificar o sintoma, o gerador não dava sinal de ignição então partimos para as acções correctivas fundamentais:
- Limpamos os bornes da bateria com escova de aço e uma solução de bicarbonato de sódio com água, removendo toda a corrosão acumulada.
- Inspecionamos todos os cabos e conectores, garantindo que estavam firmes, limpos e sem sinais de desgaste ou mau encaixe.
- Reapertamos os terminais e testamos a continuidade eléctrica para confirmar uma conexão sólida.
Após a execução dessas medidas, o gerador voltou a funcionar normalmente, comprovando que, em muitos casos, a origem da falha está nos detalhes mais básicos, mas essenciais na infraestrutura.
A sala de servidores superaqueceu e os PACs ficaram fora de operação
Um dos casos mais delicados foi o desligamento total de parte dos PACs (ar-condicionados de precisão). Por cerca de 20 minutos, a sala de servidores ficou super aquecida. A temperatura subia rapidamente, e não podíamos esperar passivamente.
Naquele momento a solução foi usar ventoinhas industriais de grande porte, posicionadas de forma estratégica para permitir a circulação mínima de ar e evitar danos aos equipamentos na sala de máquinas.
Durante a inspeção, localizamos o problema: um MCCB (disjuntor moldado) havia sido danificado. Com agilidade, buscamos o componente de reposição (spare) e realizamos a troca, restabelecendo o funcionamento normal do sistema.
Esse momento ensinou que:
Não basta confiar só na automação é preciso estar sempre pronto para agir com criatividade e velocidade. A redundância física e o estoque de peças críticas podem definir o sucesso ou fracasso diante de uma falha.
Sentidos humanos em ambientes automatizados
Apesar da tecnologia avançada, sensores ASD (Aspirating Smoke Detection), painéis de alarme, sistemas de supervisão aprendemos que nossos sentidos também são ferramentas indispensáveis.
Muitas vezes, era o cheiro de combustível, um ruído estranho, ou um leve aumento na vibração de um motor que nos alertava antes de qualquer alarme. No dia a dia, nos comportávamos como bombeiros prontos para agir. Bastava estar em turno: ficar em alerta era mandamento.
Pós-incidente: lições e retrospectivas
Após cada evento, realizávamos uma retrospectiva operacional. Nela, discutíamos abertamente:
- O que aconteceu
- Como reagimos
- O que deu certo
- O que precisa melhorar
- Quais práticas poderiam ser ajustadas
Sem culpa, sem apontar dedos. A meta era só uma: melhorar continuamente. Esse ritual incorporava na prática os princípios das metodologias ágeis: colaboração, adaptação, melhoria contínua e resposta rápida à mudança.
O que tudo isso me ensinou?
Que em ambientes de missão crítica, os detalhes são a linha entre estabilidade e caos.
Aprendi que:
Fazer o básico bem feito salva vidas no mundo digital;
Ter processos claros não impede de agir com agilidade;
Colaboração e confiança entre pessoas valem tanto quanto qualquer sensor (pois a experiência funciona como o sexto sentido também)
E que o verdadeiro diferencial está em se antecipar ao problema, não apenas reagir. Sim é extremamente importante realizar simulações, verificações e testes do sistema.
Conclusão
Incidentes são inevitáveis. Mas a diferença está em como você se prepara, como reage e, principalmente, o que aprende depois. A maturidade operacional de um data center não se mede só em uptime, mas na capacidade de prevenir, responder e evoluir constantemente.
Até breve.
#filipe-chau #tsalaCode #mozitroom #DataCenter #IncidenteTI #AltaDisponibilidade #GestaoDeCrises #TecnologiaCritica #Monitoramento24x7 #FalhasDeSistema #AnaliseDeRisco #CulturaDePrevencao #EngenhariaTI #RespostaRapida #ManutencaoPreventiva #ColaboracaoTecnica #MelhoriaContinua #VidaNaTI #TrabalhoEmEquipe #BastidoresDaTecnologia #TIParaTodos #TransformacaoDigital #ConteudoDeValor #StorytellingTecnico #CarreiraEmTI #MetodosAgeis #Agile
Comentários