O que é um sistema de alta disponibilidade?

Atualizado 11 de outubro de 2022•6 minutos (tempo de leitura)

Alta disponibilidade é a capacidade de um sistema de TI de ser acessível e de confiança quase 100% do tempo, eliminando ou minimizando o downtime. Ela combina dois conceitos para determinar se um sistema de TI está cumprindo com o nível de desempenho operacional prometido: a) o serviço ou servidor deve estar acessível ou disponível quase 100% do tempo sem downtime; e b) esse serviço ou servidor deve funcionar de acordo com expectativas razoáveis durante um período estabelecido. A alta disponibilidade vai além de alcançar o contrato de nível de serviço (SLA) de uptime ou satisfazer as expectativas definidas entre o provedor do serviço e o cliente. Trata-se de ter um sistema verdadeiramente resiliente, confiável e funcional.

Descubra um mundo de possibilidades com Red Hat Enterprise Linux

Com a adoção de serviços online e cargas de trabalho híbridas, cresceu a demanda por infraestruturas que possam suportar o aumento das cargas de sistemas e que mantenham os padrões operacionais. Para sustentar uma alta disponibilidade, essas infraestruturas, normalmente chamadas de "sistemas de alta disponibilidade", devem alcançar resultados quantificáveis definidos, e não somente "funcionar melhor".

Uma das metas das soluções ou serviços que prometem alta disponibilidade é chegar aos cinco noves, ou seja, o sistema permanece em execução e totalmente funcional durante 99,999% do tempo. Normalmente, somente os sistemas críticos, como dos setores de saúde, governo e serviços financeiros, precisam obrigatoriamente desse nível de disponibilidade, por motivos de conformidade e concorrência. No entanto, muitas empresas e setores têm a necessidade de que os sistemas de alta disponibilidade mantenham 99,9% (ou até mesmo 99,99%) de uptime para oferecer acesso digital constante a pessoas que trabalham remotamente e clientes.

Para uma infraestrutura ter alta disponibilidade é necessário detectar e eliminar os pontos únicos de falha que poderiam aumentar o downtime do sistema e impedir que a empresa atinja as metas de desempenho. O ponto único de falha é um aspecto qualquer na infraestrutura capaz de deixar o sistema inteiro offline. Nos sistemas mais complexos, é possível existirem vários pontos únicos de falha.

As empresas também precisam considerar os diferentes tipos de falhas que podem ocorrer em uma infraestrutura de TI moderna e complexa. Alguns exemplos são falhas de hardware, software (tanto no sistema operacional como nas aplicações em execução), serviço (como rede inacessível, latência ou degradação de desempenho/serviços de computação em nuvem) e externas (como uma queda de energia).

O primeiro passo a ser tomado para chegar à alta disponibilidade é determinar especificamente os resultados mais importantes que a empresa quer conquistar, com base nos principais serviços, requisitos regulatórios ou de conformidade e de carga de trabalho, benchmarks de desempenho, aplicações críticas e prioridades operacionais:

Quais são os requisitos de uptime para manter a conformidade regulatória e proporcionar uma boa experiência de usuário?
Como o ambiente está distribuído? Quais são os principais pontos de falha?
Qual é o desempenho necessário para a aplicação? Quais são os riscos ao atingir esse desempenho (por exemplo, alto tráfego de usuários ou cargas pesadas de gravação)?
Qual é o tipo de armazenamento usado?
Quais regulamentos estão relacionados ao acesso e à perda de dados?
Considerando os recursos de TI atuais, quais SLAs são possíveis de cumprir no caso de uma interrupção? Qual é a programação atual de manutenções planejadas e como isso afeta o uptime?
Existem planos para diferentes cenários de recuperação de desastres ou alterações nas operações empresariais?

Há várias métricas comuns que as equipes de TI usam para determinar se um ambiente ou arquitetura de alta disponibilidade está cumprindo os objetivos. Algumas são mais relevantes para uma determinada arquitetura do que outras, mas vale a pena avaliar todas para definir as expectativas em termos de desempenho:

Tempo médio entre falhas (MTBF): por quanto tempo o ambiente permanece em operação entre falhas de sistema.
Downtime médio: por quanto tempo um sistema permanece inativo (minutos de downtime) antes de ser recuperado ou substituído na topologia.
Objetivo de tempo de recuperação (RTO): o tempo total para concluir um reparo e colocar um sistema online novamente.
Objetivo de ponto de recuperação (RPO): o momento em que deverá ser possível recuperar os dados. Trata-se da janela de perda de dados. Por exemplo, se um determinado sistema depende de backups para acionar outro sistema e esses backups são diários, pode haver 24 horas de dados perdidos no sistema recuperado. No entanto, quando o armazenamento é replicado ou compartilhado, a perda de dados pode ser de apenas alguns minutos ou menos.

Uma arquitetura com alta disponibilidade incorpora os princípios de cada camada do planejamento de continuidade, como monitoramento e automação. Isso torna o sistema, em geral, mais resiliente contra todos os tipos de falha, desde problemas pontuais até uma queda total. Além disso, o sistema pode permanecer em funcionamento mesmo durante as manutenções planejadas e outras interrupções do serviço.

Um plano de recuperação de desastres ou de continuidade deve incorporar abordagens para cada possível falha:

Antecipação de falhas específicas: para cada área, a equipe de arquitetura de TI precisa se certificar de que os sistemas são redundantes e de que há sistemas de backup disponíveis em caso de falha. A próxima etapa é automatizar os processos de failover e de detecção de falhas a fim de detectar automaticamente os sistemas inativos e transferir os serviços para o sistema de backup.
Gerenciamento proativo do desempenho: a tolerância a falhas cuidará de uma interrupção, mas não necessariamente da degradação do desempenho. É nesse momento que o balanceamento de carga e a escalabilidade são úteis. Nesse caso, a equipe de arquitetura de TI monitora o desempenho do sistema e usa vários outros para gerenciar as operações e solicitações de usuários. Os balanceadores de carga e gerenciadores de tráfego podem encaminhar o tráfego de maneira inteligente em tempo real com base em fatores como largura de banda, desempenho do sistema, usuário ou tipo de solicitação.
Administração de catástrofes: as falhas que atingem uma grande extensão ou a totalidade da infraestrutura (como a queda de um provedor de nuvem ou um desastre natural no local onde está o data center) são raras. No entanto, elas exigem uma abordagem mais abrangente do que as falhas de hardware/software. Além de colocar a infraestrutura novamente online, é necessário ter dados atualizados. Isso é possível de maneira síncrona com a replicação (com risco de perda de desempenho) ou de maneira assíncrona com os backups dos dados (com risco de perda de dados).

Maximize a continuidade dos negóciosPágina disponível no idioma inglês (Portuguese, Brazil não disponível)

As arquiteturas com alta disponibilidade executam clusters de failover. Portanto, já contam com redundância e failover integrados, além de downtime zerado. Dentro do cluster, os nós são monitorados não apenas para fins de disponibilidade, mas também em termos de desempenho geral de aplicações, serviços e rede. Como o armazenamento é compartilhado, não há perda de dados quando um nó fica inativo. Todos os nós do cluster funcionam com a mesma fonte de dados. E ainda é possível usar o balanceamento de carga para gerenciar o tráfego e obter o melhor desempenho.

Além dessas características mais gerais, é possível criar clusters de alta disponibilidade para trabalhos especializados, dependendo das prioridades e atividades na infraestrutura de TI. Por exemplo, o Red Hat Enterprise Linux High Availability Add-OnPágina disponível no idioma inglês (Portuguese, Brazil não disponível) conta com quatro configurações padrão:

Alta disponibilidade: prioriza o uptime e a disponibilidade
Alto desempenho: prioriza a alta velocidade e as operações simultâneas
Balanceamento de carga: prioriza a escalabilidade com melhor custo-benefício
Armazenamento: prioriza a resiliência no gerenciamento de dados

Na prática, os sistemas de alta disponibilidade incorporam aspectos desses quatro elementos.

Gosto dos processos de patch e da forma como o Red Hat Enterprise Linux tem os elementos configurados. Nunca tive uma sessão de patch que deu falha, mesmo ao instalar mil pacotes de uma vez.
Bruce Lundberg
Administrador de sistemas Linux HPC

Leia outros depoimentos de clientes da Red Hat

A alta disponibilidade diz respeito à infraestrutura inteira. É necessário que ela seja mantida no gerenciamento de dados e do armazenamento em ambientes separados (físicos e na nuvem) e nos diferentes locais em que aplicações e serviços são executados. É por isso que uma plataforma comum e um ambiente operacional padrão formam uma configuração poderosa: a consistência persiste em qualquer ambiente de implantação.

O Red Hat Enterprise Linux oferece recursos e serviços extras em pacotes complementares que você pode incorporar ao seu sistema. O Red Hat Enterprise Linux High Availability Add-OnPágina disponível no idioma inglês (Portuguese, Brazil não disponível) cuida dos aspectos de rede, cluster e armazenamento na topologia.

Como a alta disponibilidade está intimamente ligada ao gerenciamento de dados, as implantações Red Hat Enterprise Linux para Microsoft SQL Server e SAP também incluem o Red Hat Enterprise Linux High Availability Add-On.

Descubra como o Red Hat Enterprise Linux pode gerar valor para a sua empresa

O que é um sistema de alta disponibilidade?

Acesse a biblioteca de conteúdos da Red Hat

Blog da Red Hat

Teste as soluções Red Hat gratuitamente

Leia mais

Por que escolher o Red Hat Enterprise Linux on AWS?

Como migrar de outras distribuições Linux para o Red Hat Enterprise Linux

O que é uma golden image (imagem dourada)?

Linux: conteúdo adicional

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Selecionar idioma

Red Hat legal and privacy links

Red Hat legal and privacy links