문의하기
Account 로그인
바로 가기

고가용성이란?

URL 복사

고가용성은 두 가지 개념을 결합하여 시스템이 운영 성능 수준을 충족하는지를 결정합니다. 즉, 특정 서비스 또는 서버가 다운타임 없이 거의 100% 상시 액세스 가능(또는 사용 가능)한지, 그리고 서비스나 서버가 설정된 기간 동안 합리적인 기대치에 부합하는 성능을 제공하는지 여부를 결정합니다. 고가용성은 가동 시간 서비스 수준 계약(SLA) 또는 서비스 제공업체와 고객 간에 설정된 기대치를 충족하는 것에 그치지 않습니다. 고가용성은 실제로 복원력을 갖추고 신뢰할 수 있으며 제대로 작동하는 시스템을 뜻합니다.

온라인 서비스와 하이브리드 워크로드 환경이 도입되면서 증가한 시스템 부하를 처리하면서도 운영 표준을 유지 관리할 수 있는 인프라에 대한 수요가 커지고 있습니다. 고가용성을 달성하려면 이러한 인프라가 단지 "더 잘 실행"되는 것을 넘어 정량화할 수 있는 명확한 결과를 도출해야 합니다.

고가용성 솔루션의 한 가지 목표는 파이브 나인스(five-nines) 가용성이라고 하며, 이는 시스템이 99.999%의 시간 동안 올바르게 실행 및 작동됨을 뜻합니다. 일반적으로 의료, 정부, 금융 서비스와 같은 미션 크리티컬 시스템만이 컴플라이언스 또는 경쟁력을 이유로 이런 수준의 가용성을 요구합니다. 하지만 많은 조직 및 업종에서 고객에게 1년 365일 상시 디지털 액세스를 제공하거나 직원의 재택 근무를 지원하기 위해 자체 시스템이 99.9% 또는 99.99%의 가동 시간을 유지할 것을 여전히 요구합니다.

고가용성 인프라는 다운타임을 증가시키고 조직의 성과 목표 달성을 저해할 수 있는 단일 장애 지점을 감지해 제거하는 데 좌우됩니다. 단일 장애 지점은 인프라의 한 측면으로서, 전체 시스템을 오프라인 상태에 빠뜨릴 수 있고, 복잡한 시스템에서는 단일 장애 지점이 여러 개 존재할 수 있습니다.

또한 조직은 현대적이고 복잡한 IT 인프라에서 발생할 수 있는 다양한 유형의 장애를 고려해야 합니다. 여기에는 하드웨어 장애, 소프트웨어 장애(운영 체제와 실행 중인 애플리케이션 모두 해당), 서비스 장애(예: 액세스할 수 없는 네트워킹, 대기 시간, 클라우드 서비스, 성능 저하), 외부 장애(예: 정전)가 포함됩니다.

각 조직이 고가용성을 달성하기 위해 수행할 수 있는 첫 번째 단계는 핵심 서비스, 규제 또는 컴플라이언스 요구 사항, 성능 벤치마크, 운영상의 우선순위에 따라 달성하고자 하는 가장 중요한 특정 성과를 결정하는 것입니다.

  • 규제 컴플라이언스 또는 사용자 환경을 위한 가동 시간 요구 사항은 무엇인가요?
  • 환경은 얼마나 분산되어 있나요? 핵심 장애 지점은 무엇인가요?
  • 애플리케이션에 필수적인 성능은 무엇인가요? 성능에 대한 위험 요인은 무엇인가요(예: 대량의 사용자 트래픽 또는 과도한 쓰기 부하)?
  • 어떤 종류의 스토리지가 사용 중인가요?
  • 데이터 손실 또는 데이터 액세스와 관련한 요구 사항은 무엇인가요?
  • 현재 IT 리소스를 고려할 때 정전 발생 시 달성 가능한 SLA는 얼마나 되나요? 현재 계획된 유지 관리 일정은 어떻게 되며, 가동 시간에는 어떤 영향을 미치나요?
  • 다양한 재해 복구 시나리오나 비즈니스 운영 변경과 관련된 계획이 있나요?

고가용성 환경의 경우 고가용성 아키텍처가 목표를 충족하는지 여부를 판단하기 위해 IT 팀은 몇 가지 일반적인 메트릭도 사용합니다. 아키텍처와 관련성이 더 높은 메트릭이 있을 수 있지만 기준 성능 기대치를 설정하려면 다음의 메트릭을 모두 평가해보는 것이 좋습니다.

  • 평균 장애 간격(MTBF): 시스템 장애 발생 시점부터 다음 장애 발생 시점까지 환경이 작동하는 평균 시간
  • 평균 다운타임: 시스템이 토폴로지에서 복구 또는 교체되기 전까지 작동하지 않는 평균 시간
  • 복구 시간 목표(RTO): 수리를 완료하고 시스템을 다시 온라인 상태로 복구하는 데 걸리는 총 시간
  • 복구 지점 목표(RPO): 데이터를 복구할 수 있는 시점. 데이터가 손실된 기간을 뜻합니다. 예를 들어, 시스템이 백업에서 다른 시스템을 가져와야 하며 백업이 매일 이루어지는 경우 복구된 시스템에서 최대 24시간 동안의 데이터가 손실될 수 있습니다. 하지만 복제 또는 공유 스토리지가 있으면 데이터 손실은 몇 분 이하에 불과할 수 있습니다.

고가용성 아키텍처는 모니터링 및 자동화와 같은 연속성 계획의 각 계층에 있는 원칙을 통합합니다. 따라서 전체 시스템이 특정 로컬 장애에서 전체 중단에 이르는 모든 유형의 장애에 대해 복원력을 갖게 됩니다. 심지어 계획된 유지 관리 기간과 기타 서비스 중단 시에도 전체 시스템이 가동 상태를 유지할 수 있습니다.

재해 복구 또는 연속성 계획은 다음과 같은 각각의 장애 가능성에 대한 접근 방식을 포함합니다.

  • 특정 장애 예상: 이러한 각 영역에 대해 IT 아키텍트는 먼저 시스템이 이중화되어 있는지, 그리고 장애 발생 시 사용할 수 있는 백업 시스템이 있는지 확인합니다. 다음 단계는 페일오버 프로세스를 자동화하여 가동이 중단된 시스템을 자동으로 감지하고 서비스를 백업 시스템으로 전환하는 것입니다.
  • 선제적인 성능 관리: 내결함성은 운영 중단을 해결하지만 성능 저하를 반드시 처리하는 것은 아닙니다. 바로 이 경우에 부한 분산과 확장성이 유용한 툴이 됩니다. 이 경우 IT 아키텍트는 시스템 성능을 모니터링하고 여러 시스템을 사용해 사용자 요청 및 운영을 관리합니다. 로드 밸런서와 트래픽 관리를 통해 대역폭 및 시스템 성능, 사용자 유형 또는 요청 유형에 따라 트래픽을 지능적으로 라우팅할 수 있습니다.
  • 재난 대응: 클라우드 제공업체의 가동 중단, 데이터센터 현장의 자연 재해와 같은 광범위한 인프라 장애는 드물게 발생하지만 하드웨어/소프트웨어 장애만 발생하는 경우에 비해 더 통합된 접근 방식이 필요합니다. 인프라를 온라인으로 복구하는 한편 최신 데이터도 제공해야 합니다. 이 작업은 복제(동기식으로 수행되지만 성능 위험 동반) 또는 데이터 백업(비동기식으로 수행되지만 약간의 데이터 손실 위험 포함)을 통해 수행할 수 있습니다.

고가용성 아키텍처는 활성 클러스터를 실행하므로 빌트인 이중화 및 페일오버 기능이 제공됩니다. 클러스터 내에서 노드 모니터링은 가용성뿐 아니라 애플리케이션, 서비스, 네트워크의 전반적인 성능에 대해서도 수행됩니다. 공유 스토리지가 있어 클러스터의 모든 노드가 동일한 데이터소스에서 작동하기 때문에 노드가 가동 중단되면 데이터 손실이 발생합니다. 트래픽 관리에 부하 분산을 사용하면 최상의 성능을 달성할 수 있습니다.

이러한 광범위한 특성 외에도 고가용성 클러스터는 IT 인프라 내 우선순위 및 활동에 따라 더 특화된 작업에 맞게 설계할 수 있습니다. 예를 들어, Red Hat Enterprise Linux High Availability Add-on은 다음과 같은 네 가지 기본 구성을 갖추고 있습니다.

  • 고가용성: 가동 시간 및 가용성 중심
  • 고성능: 고속 동시 작업 지원 
  • 부하 분산: 경제적으로 확장 가능
  • 스토리지: 복원력을 갖춘 데이터 관리 지원

실제 환경에서 고가용성 시스템은 이러한 모든 핵심 요소의 여러 측면을 통합합니다.

고가용성은 별도의 클라우드 및 물리 환경과 서비스 및 애플리케이션의 다양한 위치에서 데이터와 스토리지 관리를 지원해야 하기 때문에 전체 인프라에 걸쳐 적용됩니다. 공통 플랫폼과 표준 운영 환경이 이처럼 강력한 것은 배포 환경에 관계없이 일관성을 제공하기 때문입니다.

Red Hat Enterprise Linux에는 애드온 패키지를 통해 포함할 수 있는 추가 기능과 서비스가 있습니다. Red Hat Enterprise Linux High Availability Add-on은 토폴로지의 네트워킹, 클러스터링 및 스토리지 측면을 처리합니다.

고가용성은 데이터 관리와 연관되어 있기 때문에 Microsoft SQL ServerSAP를 위한 Red Hat Enterprise Linux 배포에는 Red Hat Enterprise Linux High Availability Add-on도 포함됩니다.