9 dicas para fugir da Indisponibilidade de seu Data Center

Existe uma palavra que faz até mesmo o mais gabaritado e capacitado gestor de TI tremer e suar frio: INDISPONIBILIDADE! 

Nada pior do que um ambiente improdutivo, concorda? 

E como reza a lei de Murphy, este tipo de acontecimento costuma ocorrer justamente nas épocas mais inapropriadas, como no meio de uma campanha de vendas sazonal, em um fechamento de mês, e por aí vai.

Sendo assim, colocamos abaixo 9 dicas muito úteis sobre como mitigar os riscos de indisponibilidade em seu ambiente de TI e garantir a manutenção de servidores.  

 1. Ambiente/Infraestrutura adequados

Muitos problemas que podem ocasionar indisponibilidade a médio e longo prazo são oriundos de um ambiente inapropriado para o funcionamento dos equipamentos de TI. 

Os fatores cruciais que podem definir o tempo de vida útil do parque são: poeira, temperatura, umidade, redes elétricas e de dados mal projetadas, equipamentos empilhados (sem trilhos ou bandejas), e outra infinidade de fatores não menos relevantes dos que estes aqui lembrados. 

A dica de ouro é manter um ambiente adequado para o bom funcionamento do parque, com ar condicionado dimensionado para atender a demanda, Data Center/sala técnica com o mínimo de aberturas, evitando ao máximo a entrada de poluentes externos, rede elétrica projetada considerando a tensão necessária para alimentar o parque e estimando possíveis crescimentos e utilização de sistema de monitoramento de temperatura e umidade.  

2. Monitoramento

Outro auxiliar que ajuda bastante para diminuir os riscos é o monitoramento do ambiente.   

Este pode ser realizado através da instalação de ferramentas, onde estas coletam informações de eventos e as envia para os administradores, ou através de contratação deste serviço por uma empresa que disponha de um NOC. 

O monitoramento por Command Center é realizado 24 horas por dia e 7 dias por semana, onde um time técnico preparado e qualificado detecta o problema em sua iminência, tomando as devidas ações, muitas vezes antes mesmo do problema ocorrer.  

3. Rondas Periódicas

Mesmo tendo uma excelente infraestrutura comportando o parque, será que o gestor pode encostar a cabeça no travesseiro e dormir tranquilo? A recomendação é que não!

Por mais avançada e confiável que sejam as ferramentas que nos auxiliam na mitigação de riscos, ainda assim existem pontos suscetíveis a falha, e cabe ao gestor e seu time estarem sempre atentos. 

Rondas periódicas (pelo menos 2x ao mês) são uma atividade que reduz drasticamente a tendência a falhas, pois a inspeção visual é uma ótima prática que previne possíveis falhas. Nas rondas deve-se observar alertas visuais nos painéis dos equipamentos (leds), organização de cabos, tomadas e PDUs, acúmulo de poeira, verificar possíveis pontos de refrigeração deficiente, etc. 

Cada evento deve ser registrado em relatório que posteriormente será analisado e, com base nessas informações, definir quais atitudes serão tomadas.  

4. Manutenções Preventivas

Manutenções preventivas também são de essencial atenção se você deseja manter um ambiente saudável para o parque de servidores.

Preventivas programadas de 2 a 4 vezes ao ano garantem o correto funcionamento da rotina de TI, onde devem ser realizadas limpeza externa e interna dos equipamentos, organização e identificação de cabos (que muitas vezes se perde numa manutenção emergencial), medição de tensão elétrica, testes de autonomia de nobreak, alarmes de incêndio, estanqueidade, etc.  

5. Documentação e Inventário

Ter tudo catalogado e registrado, cada servidor com sua configuração, localização, serial number, hostname, IP, etc. é de extrema importância para que no futuro, você tenha essas informações sempre em mãos quando necessário. 

E não se esqueça de atualiza-las sempre houver alguma alteração.  

6. Controle de Acesso

Uma sala técnica ou Data Center pode ser um local de entra e sai contínuo, pois nele se concentra o cérebro da empresa, comportando o ambiente de TI, telefonia, CFTV, às vezes central de ar condicionado entre outros.

Dessa forma, é vital que se tenha um controlador de acesso com uma única porta para entrada e saída, que registre essa movimentação em sistema, bem como filmagens internas e externas.

A permissão apenas de pessoas autorizadas possibilita evitar intrusos causando possíveis incidentes.  

7. Mapeamento de Criticidade do Ambiente

Em um ambiente com diversos servidores e equipamentos trabalhando para diversos sistemas diferenciados, deve-se saber o que há de realmente crítico neste parque que requer especial atenção.

Assim, o mapeamento de criticidade tem o intuito de apontar quais servidores necessitam de redundância total, atendimento 24×7 com SLA agressivo, maior frequência de monitoria e backup e demais cuidados.

Com este mapeamento, o gestor é capaz de definir a necessidade de uma contratação de suporte 24×7 com um SLA de 6 horas de solução, como exemplo, ou onde investir em um servidor de redundância nesse ambiente, o tipo de RAID que deverá ser utilizado nos discos, etc.  

8. Redundância/Disaster Recovery

Não é novidade nem segredo para nenhum gestor de TI que uma política de backup de acordo com a importância do ambiente é algo que deve ser tratado como sagrado.

Mas para ambientes 24×7 extremamente críticos, apenas um backup em dia não basta.   

Nesses casos se faz necessária 100% de redundância, pois o ambiente em hipótese alguma pode parar. É primordial a redundância de energia, onde o ambiente deve contar com um nobreak dimensionado para suportar o tempo que for necessário, minimizando impactos em caso de falta de energia. 

E para caso mais extremos, há o ambiente de DR ou Disaster Recovery. O ambiente DR é um espelho do ambiente de produção e síncrono à ele, instalado em um local físico apartado quilômetros de distância. 

No caso de um eventual desastre como uma inundação, incêndio, queda de aeronave ou outras infindáveis possibilidades que possa parar totalmente o ambiente de produção, o DR assume integralmente do mesmo modo como estava o ambiente de produção antes do desastre.   Esta ferramenta é largamente utilizada por corporações financeiras e ambientes fabris onde uma parada crítica acarretaria em um prejuízo milionário.  

9. Continuidade da Garantia

Observando-se os nove itens anteriores, não menos importante é a continuidade da garantia. Um parque de TI com contrato de suporte é imprescindível para que não haja surpresas desagradáveis e tão pouco indisponibilidade.

Portanto, mantenha seus equipamentos críticos sempre contratuais, com garantia de reposição e peças e atendimento 24×7 para manutenção de servidores.

A OTG suporta equipamentos dos maiores fabricantes do mercado 365 dias por ano com abrangência em todo território nacional. Se você é gestor de TI, durma tranquilo!

Precisa de ajuda?
Nos envie uma mensagem!

Contato