ログイン / 登録 アカウント

ストレージ

データレイクとは

データレイクはデータリポジトリの一種で、多種多様な大量の未加工データを、ネイティブ形式で格納します。データを精製しない状態で維持でき、データの保管に大規模な総合リポジトリを使用したい企業の間で、データ管理戦略として一般的になりつつあります。

未加工のデータとは、まだ特定の目的で処理されていないデータです。データレイク内のデータは、クエリされるまで定義されていません。データサイエンティストは、より高度な分析ツールや予測モデルを使用して、必要なときに未加工のデータにアクセスできます。

データレイクを使用すると、すべてのデータが保存されます。保存前に削除されたりフィルタリングされたりすることはありません。データは分析の目的で即座に、または将来使用されることもあれば、まったく使用されない場合もあります。特定の用途のためにデータを精製してしまうと別の方法でデータを再利用することは困難ですが、データレイクのデータはさまざまな目的で何度も使用できます。

「データレイク」という用語は、Pentaho 最高技術責任者の James Dixon 氏が提唱したものです。この種類のデータリポジトリを湖 (レイク) に例えるのは、水源では濾過したり容器に入れたりされていない状態で水が保持されているように、データを自然な状態で保存するという意味で理にかなっています。データは複数の源からレイクに流入し、元の形式で保存されます。

データレイク内のデータは分析に必要になるまで変換されず、変換されたときにスキーマが適用されて分析できる状態になります。使用されるまでデータが未加工の状態になっているため、この方式は「スキーマオンリード」と呼ばれています。

データレイクでは、データを他のシステムに移動させなくても、ユーザー独自の方法でデータにアクセスし、調査できます。データレイクから取得された知見とレポートは、通常はアドホックベースで発生します。別のプラットフォームや別の種類のデータリポジトリから分析レポートを定期的に取得するのではありません。ただし、ユーザーはスキーマと自動化を適用して、必要に応じてレポートを複製することができます。

データレイクにはガバナンスが必要で、データにアクセスして使用できるようにするには継続的な保守管理が必要です。この保守作業を行わなければ、データは「ごみ」同然、つまり、アクセスできず、扱いにくく、お金はかかるが役に立たないものになってしまう危険性があります。ユーザーがアクセスできなくなったデータレイクは、「データスワンプ」と呼ばれています。


データレイクとデータウェアハウス

データレイクとデータウェアハウスはよく混同されるのですが、同じものではなく、目的が異なります。両方ともビッグデータ向けのデータ保存用リポジトリですが、似ているのはそれだけです。多くの企業がデータウェアハウスとデータレイクの両方を使用して、固有のニーズと目標を達成しようとしています。

データウェアハウスは、レポートを目的として構造化されたデータモデルを提供します。これがデータレイクとデータウェアハウスの主な違いです。データレイクは構造化されていない未加工のデータを保存し、目的は定義されていません。

データをデータウェアハウスに移すには、処理する必要があります。どのデータをデータウェアハウスに含め、どのデータを含めないかが判断され、この過程は「スキーマオンライト」と呼ばれています。

データウェアハウスに保存するまでにデータを精製するプロセスは困難で時間がかかり、時には数カ月や数年にも及ぶ場合があります。これではデータをすぐに収集することができません。データレイクでは、データ収集を即座に開始して、データをどうするかはその後で決めることができます。

データウェアハウスは構造化されているので、多くの場合、定期レポートの作成に必要なデータを事前に把握しているビジネスアナリストやその他のビジネスユーザーが使用します。データレイクは、データを使用して調査を実施するデータサイエンティストやアナリストがより多く使用します。また、こうしたデータを活用するには、より高度なフィルターや分析を適用する必要があります。

データレイクとデータウェアハウスが保存に使用するハードウェアは、一般に異なります。データウェアハウスは高価で、データレイクはそれほど高価ではありません。規模は大きいのですが、コモディティハードウェアを使用することが多いためです。


データレイクのアーキテクチャ

データレイクでは、データは非構造化、半構造化、構造化のいずれの場合もあり、組織内のさまざまなソースから収集されるので、そのアーキテクチャはフラットです。これに対して、データウェアハウスではデータをファイルまたはフォルダーに保存します。データレイクはオンプレミスまたはクラウドに配置できます。

データレイクはそのアーキテクチャを活かして、エクサバイト規模にまで至る優れたスケーラビリティを発揮します。データレイクを作成するとき、どれだけのデータ量を維持する必要があるか、事前に知っていることは一般にはないので、この点は重要です。従来のデータストレージシステムはこのような方法で拡張できません。

このアーキテクチャはデータサイエンティストにとって、組織全体からデータをマイニングして調査できる、異なるフィールドから得た異種データなどを共有して相互参照できる、質問して新たな知見を得られるというメリットがあります。ビッグデータ分析や機械学習を利用して、データレイク内のデータを分析することもできます。

データレイクに保存されるデータには決まったスキーマはありませんが、データスワンプ化を防止するためにはデータガバナンスが重要です。レイクに格納するとき、データにメタデータをタグ付けし、後でアクセスできるようにしておかなければなりません。


Red Hat のストレージを選ぶ理由

Red Hat のオープンなソフトウェア・デファインド・ストレージ・ソリューションなら、業務量を増やし、成長速度を増し、重要な財務文書からリッチ・メディア・ファイルまで、データが安全かつ確実に保管されているという安心感を得られます。

スケーラブルでコスト効果に優れたソフトウェア・デファインド・ストレージがあれば、巨大なデータレイクを分析して、より深いビジネスの知見を獲得できます。Red Hat のソフトウェア・デファインド・ストレージ・ソリューションはすべてがオープンソースを基盤に構築され、開発者、パートナー、顧客からなるコミュニティのイノベーションを活用しています。このため、ビジネス固有のワークロード、環境、ニーズに基づいて、ストレージをどのようにフォーマットするかを制御できます。

データストレージに必要なツール

ブロックストレージおよびファイルストレージ用のインタフェースも提供する、ソフトウェア・デファインド・オブジェクト・ストレージ・プラットフォーム。クラウド・インフラストラクチャ、メディアリポジトリ、バックアップと復元システム、およびデータレイクをサポートしており、特に Red Hat OpenStack® Platform との連携に優れています。

モジュール式でスケーラブルなプライベートクラウド・インフラストラクチャ上で、コンテナを構築してコンテナ・アプリケーション・プラットフォームをホストします。オブジェクトストレージ、ブロックストレージ、ファイルストレージについて OpenStack を Red Hat Ceph Storage と組み合わせると、クラウドのパフォーマンスが向上します。

ストレージについてさらに詳しく知る