概要
データレイクはデータリポジトリの一種で、多種多様な大量の未加工データを、ネイティブ形式で格納します。データを精製しない状態で維持でき、データの保管に大規模な総合リポジトリを使用したい企業の間で、データ管理戦略として一般的になりつつあります。
未加工のデータとは、まだ特定の目的で処理されていないデータです。データレイク内のデータは、クエリされるまで定義されていません。データサイエンティストは、より高度な分析ツールや予測モデルを使用して、必要なときに未加工のデータにアクセスできます。
データレイクを使用すると、すべてのデータが保存されます。保存前に削除されたりフィルタリングされたりすることはありません。データは分析の目的で即座に、または将来使用されることもあれば、まったく使用されない場合もあります。 特定の用途のためにデータを精製してしまうと別の方法でデータを再利用することは困難ですが、データレイクのデータはさまざまな目的で何度も使用できます。
フィルタリングおよび構造化されていないデータ
「データレイク」という用語は、Pentaho 最高技術責任者の James Dixon 氏が提唱したものです。この種類のデータリポジトリを湖 (レイク) に例えるのは、水源では濾過したり容器に入れたりされていない状態で水が保持されているように、データを自然な状態で保存するという意味で理にかなっています。データは複数の源からレイクに流入し、元の形式で保存されます。
データレイク内のデータは分析に必要になるまで変換されず、変換されたときにスキーマが適用されて分析できる状態になります。使用されるまでデータが未加工の状態になっているため、この方式は「スキーマオンリード」と呼ばれています。
データへのアドホックアクセス
データレイクでは、データを他のシステムに移動させなくても、ユーザー独自の方法でデータにアクセスし、調査できます。データレイクから取得された知見とレポートは、通常はアドホックベースで発生します。別のプラットフォームや別の種類のデータリポジトリから分析レポートを定期的に取得するのではありません。ただし、ユーザーはスキーマと自動化を適用して、必要に応じてレポートを複製することができます。
データレイクにはガバナンスが必要で、データにアクセスして使用できるようにするには継続的な保守管理が必要です。この保守作業を行わなければ、データは「ごみ」同然、つまり、アクセスできず、扱いにくく、お金はかかるが役に立たないものになってしまう危険性があります。ユーザーがアクセスできなくなったデータレイクは、「データスワンプ」と呼ばれています。
データレイクのメリット
多様な生データの大規模なセットをデータレイクとしてネイティブ形式で保存することは、組織にとって多くのメリットがあります。
- データレイクは スケーラブルです。構造化データ、半構造化データ、非構造化データを含む大量のデータを大規模に扱うことができます。事前定義されたスキーマを必要とせずにデータを保存できるため、多様なデータタイプを取り込むことができます。これにより、コンピューティング・パフォーマンスを向上させることができます。先進的なデータレイク・ソリューションでは、分散コンピューティング・フレームワークを活用し、大規模なデータセットの効率的な処理を可能にします。
- データレイクは一般的に、クラウドベースのオブジェクトストレージなどの低コストのストレージ・ソリューションを使用するため、膨大な量のデータを保存するための 費用対効果の高い選択肢となっています。データレイクは一元化されたデータストレージとして構成されているため、異なるシステム間で同じデータの複数のコピーを維持する必要がありません。
- データレイクの「スキーマオンリード」アプローチには、従来のデータウェアハウスよりも高い 柔軟性があります。データをネイティブ形式で保存することにより、多様なデータセットを統合および分析するための アジリティが実現します。
- 従来のデータウェアハウスと比較して、データレイクが提供する 中央リポジトリにより、組織データを包括的に把握できます。このデータ統合により、データへのアクセスが改善され、データの共有とコラボレーションの障壁が取り除かれます。
- データレイクの一元的なリポジトリにより、データガバナンスが容易になります。メタデータ管理、データリネージュ、アクセス制御といったデータガバナンスのための機能により、データの品質、一貫性、規制へのコンプライアンスを確保できます。
- これまでのメリットがすべて、さらなる イノベーションにつながります。データレイクは、データサイエンティストがプロダクションシステムに影響を与えることなくデータを探索し、実験するためのサンドボックス環境として機能します。データレイクにおけるデータ統合が迅速になり、柔軟に分析できると、知見を迅速に取得できるようになり、市場の変化に対するアジリティと対応力が向上します。
Red Hat のリソース
データレイクのユースケース
データレイクの一般的なユースケースには以下のようなものがあります。
1. 高度な分析と機械学習:大量のデータをネイティブ形式で保存できるデータレイクは、高度な分析や機械学習を行う上で不可欠な存在となっています。データレイクは、顧客とのやり取り、販売データ、ソーシャルメディア活動などの多様なデータソースを収集し、統合することができます。これにより、データサイエンティストは予測モデルや高度な AI アプリケーションを開発し、より優れたビジネスインサイトを得て意思決定を行うことができます。
2. リアルタイムのデータ処理:データレイクはリアルタイムのデータ統合と処理をサポートするため、金融取引、不正検知、運用監視など、即時の知見を必要とするアプリケーションに最適です。データレイクは取引データをリアルタイムで監視し、不正行為を即座に特定して防止することができます。製造施設では、機械からのリアルタイムのデータが異常を検出し、予知保全を実行し、ダウンタイムを削減して効率を向上させることができます。
3. データの統合: データレイクは、複数のソースからのデータを単一の統一されたリポジトリに統合し、データのサイロ化を解消することができます。これは、顧客を包括的に把握するために特に便利です。小売企業は、購買履歴、Web サイトでのやりとり、ソーシャルメディアからのデータを組み合わせることで顧客の行動をよりよく理解し、パーソナライズされたマーケティング・キャンペーンを提供できます。
4. 法令順守とデータガバナンス: データレイクは膨大な量のデータを保存するための安全でスケーラブルなソリューションを提供するため、GDPR、HIPAA、CCPA などの規制へのコンプライアンスを確保することができます。このリアルタイムのコンプライアンスは、データの保存とセキュリティに関する厳しい規制要件を遵守しなければならない医療や金融などの業界にとって非常に重要です。
5. エッジデバイスのデータ管理: エッジデバイスは膨大な量のデータを生成します。データレイクはそのような大量かつ多様なデータを保存および処理できます。エッジでは、このデータにはセンサーの読み取り値、スマートメーターのデータ、接続されたデバイスのログなどが含まれます。データレイクのこの能力が、スマートシティ管理、産業オートメーション、予知保全などのユースケースを支えています。
データレイクは、データの保存と処理に関する多くの先進的なユースケースに対応するためのアジリティと適応性を提供します。
データレイクとデータウェアハウス
データレイクとデータウェアハウスはよく混同されるのですが、同じものではなく、目的が異なります。両方ともビッグデータ向けのデータ保存用リポジトリですが、似ているのはそれだけです。多くの企業がデータウェアハウスとデータレイクの両方を使用して、固有のニーズと目標を達成しようとしています。
データウェアハウスは、レポートを目的として構造化されたデータモデルを提供します。これがデータレイクとデータウェアハウスの主な違いです。データレイクは構造化されていない未加工のデータを保存し、目的は定義されていません。
データをデータウェアハウスに移すには、処理する必要があります。どのデータをデータウェアハウスに含め、どのデータを含めないかが判断され、この過程は「スキーマオンライト」と呼ばれています。
データウェアハウスに保存するまでにデータを精製するプロセスは困難で時間がかかり、時には数カ月や数年にも及ぶ場合があります。これではデータをすぐに収集することができません。データレイクでは、データ収集を即座に開始して、データをどうするかはその後で決めることができます。
データウェアハウスは構造化されているので、多くの場合、定期レポートの作成に必要なデータを事前に把握しているビジネスアナリストやその他のビジネスユーザーが使用します。データレイクは、データを使用して調査を実施するデータサイエンティストやアナリストがより多く使用します。また、こうしたデータを活用するには、より高度なフィルターや分析を適用する必要があります。
データレイクとデータウェアハウスが保存に使用するハードウェアは、一般に異なります。データウェアハウスは高価で、データレイクはそれほど高価ではありません。規模は大きいのですが、コモディティハードウェアを使用することが多いためです。
クラウド上のデータレイク
クラウド・ソリューションは、組織の成長に合わせて支払うことができるため、スケーラビリティと費用対効果に優れています。クラウドストレージを利用したデータレイクは、手持ちのハードウェアに依存しないため、 無限に拡張することができます。このスケーラビリティとともに、クラウド・ソリューションは、需要に応じてスケールアップまたはスケールダウンできるため、 パフォーマンス・ソリューションにもなります。データレイク用のクラウド・ソリューションは柔軟なインフラストラクチャを提供するため、オンプレミスのハードウェアよりも費用対効果が高い可能性があります。
クラウドデータレイクは、世界中のどこからでもアクセスできるため、他のソリューションよりも データアクセスが容易になり、分散したチームにとって有益です。また、クラウドサービスは他のクラウドサービスとの統合を前提に構築されているため、クラウドデータレイクはより少ない労力でより優れた 統合を実現できます。
クラウド・コンピューティングの大手企業はすべて、データレイクサービスを提供しています。Amazon S3 は AWS 上のデータレイクの基盤です。Microsoft Azure は Azure Data Lake Storage を提供しています。Google Cloud Storage は、Google Cloud Platform 上のデータレイクの基盤となる、スケーラブルでセキュアなオブジェクトストレージを提供します。IBM Cloud Object Storage は、高い耐久性、セキュリティ、データの可用性を実現し、IBM のアナリティクスや AI サービスと統合して包括的なデータソリューションを提供するよう設計されているため、データレイクの構築に最適です。
データレイクのアーキテクチャ
データレイクでは、データは非構造化、半構造化、構造化のいずれの場合もあり、組織内のさまざまなソースから収集されるので、そのアーキテクチャはフラットです。これに対して、データウェアハウスではデータをファイルまたはフォルダーに保存します。データレイクはオンプレミスまたはクラウドに配置できます。
データレイクはそのアーキテクチャを活かして、エクサバイト規模にまで至る優れたスケーラビリティを発揮します。データレイクを作成するとき、どれだけのデータ量を維持する必要があるか、事前に知っていることは一般にはないので、この点は重要です。従来のデータストレージシステムはこのような方法で拡張できません。
このアーキテクチャはデータサイエンティストにとって、組織全体からデータをマイニングして調査できる、異なるフィールドから得た異種データなどを共有して相互参照できる、質問して新たな知見を得られるというメリットがあります。ビッグデータ分析や機械学習を利用して、データレイク内のデータを分析することもできます。
データレイクに保存されるデータには決まったスキーマはありませんが、データスワンプ化を防止するためにはデータガバナンスが重要です。レイクに格納するとき、データにメタデータをタグ付けし、後でアクセスできるようにしておかなければなりません。
AI/ML アプリケーション管理の向上
人工知能/機械学習 (AI/ML) アプリケーションのデプロイおよびライフサイクル管理を単純化して ML モデルと AI アプリケーションの構築、コラボレーション、共有を迅速化する方法について、エキスパートの視点を Web セミナーシリーズでご紹介しています。
Red Hat Data Services を選ぶ理由
Red Hat のオープンなソフトウェア・デファインド・ストレージ・ソリューションなら、業務量を増やし、成長速度を増し、重要な財務文書からリッチ・メディア・ファイルまで、データが安全かつ確実に保管されているという安心感を得られます。
スケーラブルでコスト効果に優れたソフトウェア・デファインド・ストレージがあれば、巨大なデータレイクを分析して、より深いビジネスの知見を獲得できます。Red Hat のソフトウェア・デファインド・ストレージ・ソリューションはすべてがオープンソースを基盤に構築され、開発者、パートナー、顧客からなるコミュニティのイノベーションを活用しています。このため、ビジネス固有のワークロード、環境、ニーズに基づいて、ストレージをどのようにフォーマットするかを制御できます。
Red Hat 公式ブログ
Red Hat のお客様、パートナー、およびコミュニティのエコシステムに関する最新の情報を入手しましょう。