검색

한국어

한국어

로그인

로그인/등록

웹사이트

토픽

빅데이터 이해

오늘날 모든 비즈니스에서 데이터의 진정한 가치를 찾아내는 것이 중요합니다. 하지만 비즈니스 인사이트를 찾아내기 전에 모든 관련 소스를 통해 이러한 데이터에 정확하고 안전하며 신속하게 액세스할 수 있어야 합니다. 이를 위해 어떻게 해야 할까요? 멀티플 데이터 소스를 통합하고 온프레미스와 클라우드 경계에서 워크로드를 전환할 수 있는 기반이 구축되어야 합니다.

빅데이터란 무엇일까요?

빅데이터는 전통적인 데이터 프로세싱 방법으로 처리할 수 없을 정도로 대규모이거나 복잡한 데이터입니다. 빅데이터는 흔히 'Three V'로 불리는 볼륨(Volume), 다양성(Variety), 속도(Velocity)라는 특성을 가지고 있습니다. 볼륨은 대규모 크기를 의미하며, 다양성은 비표준 형식의 광범위한 범위를 그리고 속도는 신속하고 효율적으로 처리되어야 하는 특성을 의미합니다.

빅데이터가 중요한 이유

데이터는 이를 보호 및 처리하고 이해하여 활용할 수 있을 때에만 진정한 가치를 지닙니다. 빅데이터를 활용하는 목표는 실시간 정보를 제공하여 이를 통해 비즈니스를 개선하도록 하는 것입니다. 실시간 정보 프로세싱은 일관되고 원활하게 고객에게 가치를 제공하고자 노력하는 기업들의 주요 목표 중 하나이며, 엣지 컴퓨팅(edge computing)의 중요한 특징 중 하나입니다. 빅데이터에서 얻은 인사이트를 활용하면 비용을 절감하여 보다 효율적으로 비즈니스를 운영하고 수익을 높이며 신규 고객을 확보할 수 있는 새로운 방법을 찾을 수 있습니다.

빅데이터 분석 및 IT 최적화

빅데이터 분석이란 모든 원시 데이터 및 다크 데이터를 사용자가 이해하고 사용할 수 있는 형태로 만드는 프로세스를 뜻합니다. 다크 데이터는 기업이 정상적인 비즈니스 활동에서 수집한 데이터로 규정 준수를 위해 안전하게 저장되어야 합니다. 다크 데이터는 간과되는 경우가 많지만 나머지 데이터와 마찬가지로 비즈니스 개선에 도움이 되는 가치 있는 인사이트를 제공할 수 있습니다.

빅데이터 인사이트를 활용하면 사전에 문제를 해결할 수 있으므로 비용을 지불할 필요가 없어집니다. 데이터 패턴을 분석하여 고객 행동과 요구사항을 추측이 아닌 예측을 할 수 있으므로 수익 증대에도 도움이 될 수 있습니다.

보다 효과적인 결과를 얻으려면 유연하고 포괄적이며 신뢰성이 높은 기반에서 분석 소프트웨어를 실행해야 합니다. IT 최적화가 핵심 요소인 이유가 여기에 있습니다. 기술 스택이 변화함에 따라 데이터를 계속해서 수집, 분석 및 사용할 수 있어야 합니다.

데이터 레이크, 데이터 늪, 빅데이터 스토리지

데이터 레이크는 사용자가 가진 데이터와 정확히 일치하거나 거의 일치하는 복사본을 단일 위치에 저장하는 리포지토리입니다. 데이터 레이크는 데이터에 대해 전체적인 대규모 리포지토리를 원하는 엔터프라이즈 환경에서 보편화되고 있으며, 데이터베이스보다 비용이 저렴합니다.

데이터 레이크는 정제되지 않은 데이터를 볼 수 있도록 하여 우수한 애널리스트가 전통적인 데이터 스토리지(예: 데이터 웨어하우스) 외부에서 그리고 기록 시스템(지정된 데이터 요소에 대해 권한이 있는 데이터 소스)과 상관없이 구체화 및 분석 기술을 탐색할 수 있습니다. 고도로 숙련된 애널리스트가 계속해서 기술 역량을 개선하고 새로운 데이터 분석 방법을 탐색하기를 원한다면 데이터 레이크를 활용해야 합니다.

데이터 레이크는 지속적으로 유지관리해야 하며 데이터를 사용하고 액세스하는 방법에 대한 계획을 수립해야 합니다. 제대로 유지관리하지 않으면 데이터 관리가 어렵고 비용이 많이 들며 쓸모없는 액세스 불가능한 정크가 될 위험이 있습니다. 이처럼 사용자가 액세스할 수 없는 데이터 레이크를 "데이터 늪(data swamp)"이라고 합니다.

대규모 조직에는 고유한 데이터 요구 사항을 갖는 여러 개의 비즈니스 단위(Business Unit, BU)가 있습니다. 이들 각 BU는 데이터 분석을 위해 데이터 및 인프라에 액세스할 때 어떤 식으로든 경쟁해야 하는데 이는 리소스 문제 때문입니다. 데이터 레이크가 이 문제를 해결해주지는 못합니다. 대신 공유 데이터 컨텍스트를 사용한 멀티테넌트 워크로드 격리가 필요합니다. 이는 무슨 의미일까요?

이 솔루션을 활용하면 기본적으로 새로운 비즈니스 단위에서 액세스(데이터 복사 및 모든 작업을 할 수 있는 스크립트 작성 관리 업무를 포함한 전체 액세스)할 때마다 매번 데이터의 전체 복사본을 만드는 대신 이 솔루션을 활용하면 데이터 분석 툴 컨테이너화 또는 가상화를 통해 조직에서 BU 전체에 공유할 수 있는 일부의 복사본만 페어링하면 됩니다.

빅데이터 통합에서 IT 과제

빅데이터는 애자일 통합 과제입니다. 엄격한 서비스 수준 계약을 유지관리하는 동시에 여러 비즈니스 단위 간에 데이터를 공유하려면 어떻게 해야 할까요? 보유하고 있는 데이터를 활용하여 어떻게 더 많은 가치를 실현할 수 있을까요?

빅데이터 마이닝은 복잡하지만 얻을 수 있는 것이 많습니다. 데이터 과학자들은 데이터 분석을 통해 비즈니스에 제공할 인사이트와 권장 사항을 얻습니다. 데이터 엔지니어는 데이터 과학자를 가장 잘 지원할 수 있는 데이터 파이프라인에 적합한 툴을 식별, 조합 및 관리해야 합니다. 마지막으로 인프라 측면에서는 관리자들이 인프라 내부에서 작업하며 사용자들을 위한 기본 서버를 제공해야 합니다. 이 모든 과정에 통합, 스토리지 용량 및 부족한 IT 예산의 문제가 있습니다.

통합 솔루션을 모색 중이라면 다음 질문을 고려해 보십시오.

  • 데이터 소스를 신뢰할 수 있는가? 사실 정보가 한 가지 버전으로 존재하는가?

  • 스토리지 용량이 충분한가? 하드웨어 기반 스토리지가 데이터를 분리하기 때문에 이러한 데이터를 찾아 액세스하고 관리하기가 어려운가?

  • 지속적으로 진화하는 데이터 기술에 맞춰 아키텍처를 조정할 수 있는가?

  • 클라우드를 활용하고 있는가?

  • 데이터가 안전하게 보호되고 있는가? 빅데이터를 보호하기 위해 어떤 보안 계획을 가지고 있는가?

성공적인 빅데이터 전략의 구성 요소

스토리지

파일 및 오브젝트 스토리지, Hadoop 데이터 서비스 및 데이터 이동 없는(in-place) 분석을 통합할 수 있는 소프트웨어 정의 애자일 스토리지 플랫폼을 활용하여 각 워크로드에 대해 가장 적합한 스토리지 유형을 선택할 수 있습니다.

하이브리드 클라우드

하이브리드 클라우드는 둘 이상의 퍼블릭 클라우드 또는 프라이빗 클라우드가 서로 연결된 환경이 조합된 것입니다. 이렇게 함으로써 기업은 데이터 노출을 최소화할 수 있으며, 확장 가능하고 유연한 IT 리소스와 서비스의 포트폴리오를 커스터마이징할 수 있습니다.

컨테이너

Linux 컨테이너를 사용하면 애플리케이션을 패키징하고 분리할 수 있으므로 전체 기능을 유지하면서 여러 환경(개발, 테스트, 프로덕션 등) 사이에서 데이터를 이동할 수 있습니다. 컨테이너는 빅데이터를 활용하여 데이터 처리 작업을 완료하는 빠르고 간단한 방법입니다.

빅데이터에 대해 자세히 알아보기

기술 세부 정보

Red Hat 데이터 분석 인프라 솔루션

동영상

Red Hat 데이터 분석 인프라 솔루션

인포그래픽

스토리지 어플라이언스에 대한 과다 지출 중단

사례 연구

Red Hat 솔루션을 활용하여 국가 보안 데이터를 통합한 아르헨티나 이민국

빅데이터를 시작하기 위해 필요한 툴

Red Hat OpenShift Logo

기업의 프라이빗 클라우드 또는 서비스 제공업체의 퍼블릭 클라우드를 손쉽게 구축할 수 있도록 하는 이상적인 플랫폼입니다.

Red Hat Ceph Storage logo

블록 및 파일 스토리지용 인터페이스를 제공하는 소프트웨어 정의 오브젝트 스토리지 플랫폼으로서 클라우드 인프라, 미디어 리포지토리, 백업 및 복원 시스템, 데이터 레이크를 지원하며 특히 Red Hat OpenStack® Platform과 원활하게 연동됩니다.

Red Hat OpenStack Platform

컨테이너를 구축하고 컨테이너 애플리케이션 플랫폼을 모듈식의 확장 가능한 프라이빗 클라우드 인프라에서 호스팅할 수 있습니다.