ビッグデータとは
ビッグデータは従来のデータ処理方法では扱うことができないほど非常に大きく複雑なデータです。一般に、ビッグデータは Volume、Variety、Velocity の「3 つの V」で特徴付けられています。Volume (量) とは桁外れのサイズ、Variety (種類) は非標準的な形式の多様さ、Velocity (速度) はすばやく効率的に処理する必要性を示しています。
ビッグデータが重要な理由
データには価値がありますが、それは保護し、処理し、理解し、実行可能なアクションに移すことができる場合に限ります。ビッグデータ利用の目標は、リアルタイムの情報を提供して、ビジネスの改善に利用できるようにすることです。リアルタイム情報処理は、一貫したシームレスな方法で顧客に価値を提供しようとする企業にとっての主な目標の 1 つであり、エッジコンピューティングの重要な機能の 1 つでもあります。ビッグデータから得た知見は、コストの削減、運用の効率化、収益の増大、新規顧客の発掘につなげることができます。
ビッグデータ分析と IT 最適化
ビッグデータ分析は、未処理のデータやダークデータを、理解して利用できる内容へと変えるプロセスを指す用語です。ダークデータとは、通常のビジネス活動中に組織が収集したデータで、コンプライアンスのために安全に保管しておく必要があるものです。ダークデータは見過ごされがちですが、他のデータと同様、ビジネス改善に活かせる貴重な知見を生み出すことがあります。
ビッグデータによる知見は、起きた問題に対応するのではなく、コストのかかる問題を事前に防止するために役立ちます。データパターンを分析すると、当て推量ではなく、顧客の行動とニーズを予測できます (収益増加にも役立ちます)。
分析ソフトウェアは、柔軟性と信頼性を備えた包括的な基盤で実行された場合に効果を発揮します。そこで、IT 最適化が重要になります。テクノロジースタックが変化しても、データを収集、分析、使用し続けられるようにしなければなりません。
データレイク、データスワンプ、ビッグデータストレージ
データレイクとは、データをそのままの状態、またはほぼそのままの状態でコピーして 1 つの場所に保存するリポジトリです。データレイクは、データの管理に大規模な総合リポジトリを使用したい企業の間で一般的になりつつあります。データベースよりも低コストという特徴もあります。
データレイクでは未加工の状態でデータを確認できるので、従来のデータストレージ (データウェアハウスなど) の外部で、トップアナリストが自分のやり方で絞り込みや分析を試すことができます。また、いかなるシステムオブレコード (あるデータの要素に対しては信頼できるデータソース) にも依存しません。熟練したアナリストが技能を磨き、データ分析の新しい手法を探求し続けるには、データレイクが必要です。
データレイクには、継続的な保守と、データのアクセス方法および使用方法に対する計画が必要です。この保守作業を行わなければ、データは「ごみ」同然、つまり、アクセスできず、扱いにくく、お金はかかるが役に立たないものになってしまう危険性があります。ユーザーがアクセスできなくなったデータレイクは、「データスワンプ」と呼ばれています。
大規模組織には複数の事業部門 (BU) があり、それぞれにデータに対する固有のニーズがあります。各 BU は分析を行うために、データとインフラストラクチャへのアクセスをかけて競争しなければなりません。これはリソースの問題です。データレイクではこの問題は解決されません。必要となるのは、共有データコンテキストによるマルチテナント・ワークロードの分離です。これはどういうことでしょうか。
基本的にこのソリューションでは、新しい事業部門でアクセスが必要になるたびにデータを完全にコピーする (そして、データをコピーしてうまく動作させるスクリプトを管理者が作成する) のではなく、データ分析ツールでのコンテナ化または仮想化によってコピーをほんのわずかな量にまで削減し、それを BU 間で共有できるようにします。
ビッグデータ統合による IT の課題
ビッグデータはアジャイル・インテグレーションの課題です。複数の事業部門でデータを共有しながら、厳密なサービスレベル契約を維持するには、どうすべきでしょうか。所有しているデータからさらに価値を引き出すには、どうしたらよいでしょうか。
ビッグデータのマイニングには大きな見返りがありますが、複雑でもあります。データサイエンティストは、データを分析して知見と推奨事項を取得し、ビジネスに役立てるという職務を担っています。データエンジニアは、データパイプラインに適切なツールを特定、作成、管理し、データサイエンティストの職務を遂行可能にする必要があります。最後にインフラストラクチャ側では、管理者がインフラストラクチャと深く関わり、使用される基本サービスを提供する必要があります。そこに立ちはだかるのが、統合、ストレージ容量、IT 予算の削減という課題です。
統合ソリューションを検討する際は、以下の質問を考えてみましょう。
- データソースは信頼できますか?1 つのバージョンですべてのデータを格納していますか?
- 適切なデータ容量がありますか?ハードウェアベースのストレージでデータを分離しているために、検出、アクセス、管理が困難になっていませんか?
- 常に進化するデータテクノロジーに適応できるアーキテクチャですか?
- クラウドを活用していますか?
- データは保護されていますか?ビッグデータに対してどのようなセキュリティ計画を実施していますか?