トピックス

ビッグデータについて理解する

現在のあらゆるビジネスにとって、データから現実的な価値を見出すことが不可欠です。しかしビジネスに役立つ情報を探り当てるには、関連する情報源のすべてから、正確、安全、かつ迅速に、データにアクセスできなければなりません。どのようにすべきでしょうか。複数のデータソースを統合し、ワークロードをオンプレミスとクラウドの境界を超えて移動できる基盤を利用しましょう。

ビッグデータとは

ビッグデータとは、従来のデータ処理方法で扱うには大きすぎるか、複雑すぎるデータです。一般に、ビッグデータは Volume、Variety、Velocity の「3 つの V」で特徴付けられています。Volume (量) とは桁外れのサイズ、Variety (種類) は標準的ではない形式の多様さ、Velocity (速度) はすばやく効率的に処理する必要性を示しています。

ビッグデータが重要な理由

データには価値がありますが、それは処理して理解し、実行できる場合に限ります。ビッグデータ利用の目標は、リアルタイムの情報を提供して、ビジネスの改善に利用できるようにすることです。ビッグデータから得た知見により、コストを削減し、運用を効率化し、収益を増加させて新規顧客を獲得する新しい方法を発見できます。

ビッグデータ分析と IT 最適化

ビッグデータ分析は、未処理のデータやダークデータを、理解して使用できる内容へと変えるプロセスを指す用語です。ダークデータとは、通常のビジネス活動中に組織が収集したデータで、コンプライアンスのために保管し保護しておく必要があるものです。ダークデータは見過ごされがちですが、他のデータと同様、ビジネス改善に使用できる貴重な知見を生み出せます。

ビッグデータによる知見があれば、コストのかかる問題を防止できるので、対応する必要もなくなります。データパターンを分析すると、当て推量ではなく、顧客の行動とニーズを予測できます (収益増加にも役立ちます)。

効果を発揮するには、分析ソフトウェアは柔軟で包括的な、信頼できる基盤で実行されなければなりません。そこで、IT 最適化が重要になります。テクノロジースタックが変化しても、データを収集、分析、使用を継続できるようにしなければなりません。

データレイク、データスワンプ、ビッグデータストレージ

データレイクとは、データのそのまま、またはほぼそのままの形でコピーして 1 つの場所に保存するリポジトリです。データレイクは、データの全体的で大規模なリポジトリを求めるエンタープライズで広まっています。データベースよりも低コストという特徴もあります。

データレイクでは未加工の状態でデータを確認できるので、従来のデータストレージ (データウェアハウスなど) の外部で、トップアナリストが自分のやり方で絞り込みや分析を試すことができます。また、いかなるシステムオブレコード (あるデータの要素に対する確実なデータソースの名称) にも依存しません。今後も熟練したアナリストがスキルを磨いてデータを分析する新しい方法を調べていくには、データレイクが必要です。

データレイクには、継続的な保守と、データのアクセス方法と使用方法に対する計画が必要です。こうした保守作業を行わないと、データがゴミになってしまいます。データにアクセスできなくなり、使いにくく高価で無駄になります。ユーザーがアクセスできなくなったデータレイクは、「データスワンプ」と呼ばれています。

大規模組織には複数の事業部門 (BU) があり、それぞれにデータに対する固有のニーズがあります。各 BU は分析するためにデータとインフラストラクチャにアクセスする何らかの手段で競合せざるをえませんが、これはリソースの問題です。データレイクではこの問題は解決されません。必要となるのは、共有データコンテキストによるマルチテナント・ワークロードの分離です。これはどういうことでしょうか。

基本的にはこのソリューションでは、新しい事業部門でアクセスが必要になるたびにデータを完全にコピーする (そして、データをコピーしてうまく動作させるスクリプトを管理者が作成する) のではなく、データ分析ツールでのコンテナ化または仮想化によって、BU 間で共有できるコピーをほんのわずかな量にまで削減できます。

ビッグデータ統合による IT の課題

ビッグデータはアジャイル・インテグレーションの課題です。複数の事業部門でデータを共有しながら、厳密なサービスレベル契約を維持するには、どうすべきでしょうか。所有しているデータからさらに価値を引き出すには、どうしたらよいでしょうか。

ビッグデータのマイニングには大きな見返りがありますが、複雑でもあります。データサイエンティストは、データを分析して知見と推奨事項を取得し、ビジネスに役立てるという職務を担っています。データエンジニアは、データパイプラインに送り込む適切なツールを特定、作成、管理し、データサイエンティストに最適な能力を与える必要があります。最後にインフラストラクチャ側では、管理者がインフラストラクチャと深く関わり、使用される基本サービスを提供する必要があります。そこに立ちはだかるのが、統合、ストレージ容量、縮小する IT 予算という課題です。

統合ソリューションを検討するとき、以下の質問を考えてみましょう。

  • データソースは信頼できますか?1 つのバージョンですべてのデータを格納していますか?

  • 適切なデータ容量がありますか?ハードウェアベースのストレージでデータを分離しているために、検出、アクセス、管理が困難になっていませんか?

  • 常に進化するデータテクノロジーに適応できるアーキテクチャですか?

  • クラウドを活用していますか?

  • データは保護されていますか?ビッグデータに対してどのようなセキュリティ計画を実施していますか?

ビッグデータ戦略を成功させるための構成要素

ストレージ

ファイルとオブジェクトストレージを統合できるソフトウェア・デファインドでアジャイルなストレージ・プラットフォーム、Hadoop データサービス、インプレース分析で、ワークロード別に最適なストレージタイプを選択します。

ハイブリッドクラウド

ハイブリッドクラウドとは、パブリッククラウドとプライベートクラウド環境を 1 つまたは複数組み合わせたものです。この仕組みによってデータの露出を最小限に抑えることができ、企業は IT リソースとサービスのポートフォリオを、スケーラブルで柔軟性の高いものにカスタマイズできます。

コンテナ

Linux コンテナではアプリケーションをパッケージして分離できるので、データを環境間 (開発、テスト、本番など) で移動させながら、全機能を維持できます。コンテナは、データ処理のジョブをビッグデータで完了させる、迅速でシンプルな方法です。

ビッグデータの活用に必要なツール

企業のプライベートクラウド構築およびサービスプロバイダーのパブリッククラウド構築に理想的なプラットフォームです。

ブロックストレージおよびファイルストレージ用のインタフェースも提供する、ソフトウェア・デファインド・オブジェクト・ストレージ・プラットフォーム。クラウド・インフラストラクチャ、メディアリポジトリ、バックアップと復元システム、およびデータレイクをサポートしており、Red Hat OpenStack® プラットフォームに最適です。

自社向けのコンテナを作成し、モジュール型のスケーラブルなプライベートクラウド・インフラストラクチャ上で、コンテナ・アプリケーション・プラットフォームをホスティングできます。

ビッグデータについてさらに詳しく知る