検索

日本語

ログイン アカウント

ログイン / 登録 アカウント

Web サイト

トピックス

ビッグデータについて理解する

現在のあらゆるビジネスにとって、データから真の価値を見出すことが不可欠です。しかしビジネスに役立つ情報を探り当てるには、関連する情報源のすべてから、正確、安全、かつ迅速に、データにアクセスできなければなりません。そのためには、複数のデータソースを統合し、ワークロードをオンプレミスとクラウドの境界を超えて移動できる基盤が必要です。

ビッグデータとは

ビッグデータは従来のデータ処理方法では扱うことができないほど非常に大きく複雑なデータです。一般に、ビッグデータは Volume、Variety、Velocity の「3 つの V」で特徴付けられています。Volume (量) とは桁外れのサイズ、Variety (種類) は非標準的な形式の多様さ、Velocity (速度) はすばやく効率的に処理する必要性を示しています。

ビッグデータが重要な理由

データには価値がありますが、それは保護し、処理し、理解し、実行可能なアクションに移すことができる場合に限ります。ビッグデータ利用の目標は、リアルタイムの情報を提供して、ビジネスの改善に利用できるようにすることです。リアルタイム情報処理は、一貫したシームレスな方法で顧客に価値を提供しようとする企業にとっての主な目標の 1 つであり、エッジコンピューティングの重要な機能の 1 つでもあります。ビッグデータから得た知見は、コストの削減、運用の効率化、収益の増大、新規顧客の発掘につなげることができます。

ビッグデータ分析と IT 最適化

ビッグデータ分析は、未処理のデータやダークデータを、理解して利用できる内容へと変えるプロセスを指す用語です。ダークデータとは、通常のビジネス活動中に組織が収集したデータで、コンプライアンスのために安全に保管しておく必要があるものです。ダークデータは見過ごされがちですが、他のデータと同様、ビジネス改善に活かせる貴重な知見を生み出すことがあります。

ビッグデータによる知見は、起きた問題に対応するのではなく、コストのかかる問題を事前に防止するために役立ちます。データパターンを分析すると、当て推量ではなく、顧客の行動とニーズを予測できます (収益増加にも役立ちます)。

分析ソフトウェアは、柔軟性と信頼性を備えた包括的な基盤で実行された場合に効果を発揮します。そこで、IT 最適化が重要になります。テクノロジースタックが変化しても、データを収集、分析、使用し続けられるようにしなければなりません。

データレイク、データスワンプ、ビッグデータストレージ

データレイクとは、データをそのままの状態、またはほぼそのままの状態でコピーして 1 つの場所に保存するリポジトリです。データレイクは、データの保管に大規模な総合リポジトリを使用したい企業の間で一般的になりつつあります。データベースよりも低コストという特徴もあります。

データレイクでは未加工の状態でデータを確認できるので、従来のデータストレージ (データウェアハウスなど) の外部で、トップアナリストが自分のやり方で絞り込みや分析を試すことができます。また、いかなるシステムオブレコード (あるデータの要素に対しては信頼できるデータソース) にも依存しません。熟練したアナリストが技能を磨き、データ分析の新しい手法を探求し続けるには、データレイクが必要です。

データレイクには、継続的な保守と、データのアクセス方法および使用方法に対する計画が必要です。この保守作業を行わなければ、データは「ごみ」同然、つまり、アクセスできず、扱いにくく、お金はかかるが役に立たないものになってしまう危険性があります。ユーザーがアクセスできなくなったデータレイクは、「データスワンプ」と呼ばれています。

大規模組織には複数の事業部門 (BU) があり、それぞれにデータに対する固有のニーズがあります。各 BU は分析を行うために、データとインフラストラクチャへのアクセスをかけて競争しなければなりません。これはリソースの問題です。データレイクではこの問題は解決されません。必要となるのは、共有データコンテキストによるマルチテナント・ワークロードの分離です。これはどういうことでしょうか。

基本的にこのソリューションでは、新しい事業部門でアクセスが必要になるたびにデータを完全にコピーする (そして、データをコピーしてうまく動作させるスクリプトを管理者が作成する) のではなく、データ分析ツールでのコンテナ化または仮想化によって、BU 間で共有できるコピーをほんのわずかな量にまで削減します。

ビッグデータ統合による IT の課題

ビッグデータはアジャイル・インテグレーションの課題です。複数の事業部門でデータを共有しながら、厳密なサービスレベル契約を維持するには、どうすべきでしょうか。所有しているデータからさらに価値を引き出すには、どうしたらよいでしょうか。

ビッグデータのマイニングには大きな見返りがありますが、複雑でもあります。データサイエンティストは、データを分析して知見と推奨事項を取得し、ビジネスに役立てるという職務を担っています。データエンジニアは、データパイプラインに適切なツールを特定、作成、管理し、データサイエンティストの職務を遂行可能にする必要があります。最後にインフラストラクチャ側では、管理者がインフラストラクチャと深く関わり、使用される基本サービスを提供する必要があります。そこに立ちはだかるのが、統合、ストレージ容量、IT 予算の削減という課題です。

統合ソリューションを検討する際は、以下の質問を考えてみましょう。

  • データソースは信頼できますか?1 つのバージョンですべてのデータを格納していますか?

  • 適切なデータ容量がありますか?ハードウェアベースのストレージでデータを分離しているために、検出、アクセス、管理が困難になっていませんか?

  • 常に進化するデータテクノロジーに適応できるアーキテクチャですか?

  • クラウドを活用していますか?

  • データは保護されていますか?ビッグデータに対してどのようなセキュリティ計画を実施していますか?

ビッグデータ戦略を成功させるための構成要素

ストレージ

ファイルとオブジェクトストレージを統合できるソフトウェア・デファインドでアジャイルなストレージ・プラットフォーム、Hadoop データサービス、インプレース分析で、ワークロード別に最適なストレージタイプを選択します。

ハイブリッドクラウド

ハイブリッドクラウドとは、相互接続された、パブリックとプライベートの複数のクラウド環境の組み合わせです。この仕組みによってデータの露出を最小限に抑えることができ、企業は IT リソースとサービスのポートフォリオを、スケーラブルで柔軟性の高いものにカスタマイズできます。

コンテナ

Linux コンテナではアプリケーションをパッケージして分離できるので、データを環境間 (開発、テスト、本番など) で移動させながら、全機能を維持できます。コンテナは、データ処理のジョブをビッグデータで完了させる、迅速でシンプルな方法です。

ビッグデータについて詳しく知る

技術詳細

Red Hat データ分析インフラストラクチャ・ソリューション

ビデオ

Red Hat データ分析インフラストラクチャ・ソリューション

インフォグラフィック

ストレージ・アプライアンスへの過分な支出を防ぐ

事例

アルゼンチン移民局、Red Hat 製品で安全保障データを統一

ビッグデータの活用に必要なツール

Red Hat OpenShift Logo

企業のプライベートクラウド構築およびサービスプロバイダーのパブリッククラウド構築に理想的なプラットフォームです。

Red Hat Ceph Storage logo

ブロックストレージおよびファイルストレージ用のインタフェースも提供する、ソフトウェア・デファインド・オブジェクト・ストレージ・プラットフォーム。クラウド・インフラストラクチャ、メディアリポジトリ、バックアップと復元システム、およびデータレイクをサポートしており、Red Hat OpenStack® Platform に最適です。

Red Hat OpenStack Platform

自社向けのコンテナを作成し、モジュール型のスケーラブルなプライベートクラウド・インフラストラクチャ上で、コンテナ・アプリケーション・プラットフォームをホスティングできます。

ビッグデータについてさらに詳しく知る