ログイン / 登録 アカウント

ほとんどの企業はデータサイエンスを有効活用する機会があるものの、ツールやワークフローの制限があるためにこれらの機会を活用しきれていません。そのような状況を受け、Red Hat は Red Hat OpenShift Data Science を提供し、データサイエンスと機械学習 (ML) について自社の IT プロジェクトや多数の業界のお客様との連携から学んだことをお客様に活用していただけるようにしています。これから Red Hat OpenShift Data Science とは何か、そしてそれがどのように役立つのかについて説明します。

データサイエンスと機械学習は、石油やガスから金融サービスに至る数多くの業界の組織においてビジネス上の意思決定を促進し、収益と知見を生み出すのに役立っています。しかし、ML ワークフローの開発とデプロイは必ずしも簡単ではありません。多くの場合、データへのアクセスの欠如やコンピューティング・リソースの不足、複雑な依存関係を持つライブラリやパッケージのバージョンの管理が困難であること、またセキュリティ上の制約といった制限があります。Red Hat は、Red Hat OpenShift Data Science によりこれらの課題を解決することを目指しています。

Red Hat OpenShift Data Science とは

Red Hat OpenShift Data Science は、Red Hat OpenShift のマネージド・クラウドサービスに対するアドオンであり、初期段階では Amazon Web Services (Red Hat OpenShift Dedicated および Red Hat OpenShift Service on AWS) で提供されます。データサイエンティストにサンドボックス環境を提供し、このサンドボックスでは、機械学習モデルの開発、トレーニングおよびテスト、およびインテリジェント・アプリケーションで使用するためのデプロイが可能です。

Red Hat OpenShift Data Science はサポート付きのセルフサービス環境を提供するため、データサイエンティストと機械学習エンジニアは、データの収集と準備から ML モデルのテストとトレーニングを含む日々の作業を実行できます。Red Hat OpenShift Data Science を使用するお客様は、Red Hat パートナーおよび独立系ソフトウェアベンダー (ISV) のさまざまな AI/ML テクノロジーを利用し、最新のデータサイエンスツールを備えた独自の柔軟なサンドボックス環境を構築できます。

機械学習のワークフロー

Red Hat OpenShift Data Science についてさらに深く掘り下げる前に、まず、データサイエンティストがビジネス上の問題の解決に AI/ML を利用する際の典型的な ML ワークフローを段階ごとにまとめます。

Machine learning workflow

ワークフローは、データの収集と準備から始まります。多くの場合、データはさまざまなソースから統合する必要があり、データについての調査と理解は、データサイエンス・プロジェクトの成功において重要な役割を果たします。

データの収集、クリーンアップおよび処理が完了すると、ML ワークフローの第 2 段階を開始できます。モデルをトレーニングする際には、トレーニングデータのセットに基づいてパラメーターを調整します。実際には、データサイエンティストは各種のモデルをトレーニングし、時間やメモリーの制約などのトレードオフを考慮しながらパフォーマンスを比較します。

モデルトレーニングの次のステップはプロダクションです。従来、このステップではデータサイエンティストから開発者へのハンドオフが行われましたが、多くのデータサイエンティストがモデルのアプリケーションへの統合作業を担うようになっていることを Red Hat は認識しています。

最後に、データサイエンティストは、プロダクションでのモデルのパフォーマンスを監視し、予測とパフォーマンスのメトリクスを追跡する必要があります。

OpenShift Data Science による機械学習ワークフローのサポート

Red Hat OpenShift Data Science は、統合されたツールとさまざまなオープンソース・データサイエンス・プロジェクトやプロプライエタリー・ソフトウェアへのアクセスを備えた、一元化されたセルフサービスのサンドボックス環境を提供するため、データサイエンティストは手元のタスクに集中し、 より安全なサポートされた環境で、モデルの迅速な開発とトレーニングを行うことができます。

たとえば、OpenShift Data Science では JupyterLab サービスがデフォルトで有効にされるため、ユーザーは Jupyter Notebook でモデルを開発し、分析手法を実装できます。試行やテストを重ねた各種のノートブックイメージからの選択が可能であり、Red Hat が提供するコンテナイメージをすばやくロードして TensorFlow や PyTorch などの最新フレームワークを使用してモデルを開発できます。

オンデマンドで GPU に接続できるため、モデルのトレーニングとテストを加速させ、モデルの開発と知見の取得にかかる時間を短縮することができます。これは、ラピッドプロトタイピングや実験などのユースケースに役立ちます。

モデルの本番環境へのデプロイ

Red Hat OpenShift Data Science は、業界をリードするエンタープライズ Kubernetes プラットフォームの Red Hat OpenShift 上に構築されているので、さまざまな部門のチームが同じプラットフォームで作業でき、モデルのデプロイ時の統合エクスペリエンスを単純化できます。Red Hat OpenShift の Source-to-Image (S2i) ツールキットを使用すると、ビルドを使って ML の実験をコンテナ化されたモデルへと変換でき、その後インテリジェント・アプリケーションの一部として自動的にデプロイできます。

サードパーティの ML ツールが利用可能

Red Hat OpenShift Data Science では、独立系ソフトウェアベンダー (ISV) の商用ツールに対して「Bring Your Own Partner (パートナーを自由に選択できる)」アプローチを採用しています。認定済みのさまざまな AI/ML オファリングが OpenShift Data Science 自体と共に、今年の後半に Red Hat Marketplace で利用可能になる予定です。広範な AI/ML エコシステムを持つこれらのオファリングと Red Hat OpenShift Data Science との組み合わせにより、カスタマイズされたエクスペリエンスを得ることができます。Red Hat OpenShift Streams for Apache Kafka と統合すれば、データサイエンティストはストリーミングデータのモデルをテストし、開発することも可能です。

Red Hat Marketplace

初期のパートナーには以下が含まれます。

  • Starburst Galaxy

    • Starburst Galaxy はフルマネージドのプラットフォームで、ハイブリッドクラウド全体に存在するデータにアクセスできるように設計されています。

  • Anaconda Commercial Edition

    • Anaconda Commercial Edition は、Jupyter プロジェクトで使用される広範なデータサイエンス向けパッケージを厳選して提供します。

  • IBM Watson Studio

    • IBM Watson Studio を使用すると、Watson Machine Learning および Watson OpenScale を使用して AI モデルを大規模に構築し、実行し、管理できます。

  • Seldon Deploy

    • Seldon Deploy は、ML モデルのデプロイと管理のプロセスを単純化し、高速化するために役立ちます。

Red Hat OpenShift はエンタープライズグレードの Kubernetes を提供し、長年にわたって分散システムを開発するためのプラットフォームとなってきました。同じプラットフォームでデータサイエンスを実行できるため、チーム間コラボレーションは増加し、他のアプリケーション・コンポーネントとの統合エクスペリエンスを単純化でき、また ML からの知見の活用がより容易かつ迅速になります。

Red Hat OpenShift Data Science を使用するデータサイエンティストは、インフラストラクチャとハードウェアの管理を気にすることなく、モデルの開発とデータからの知見を取得することに集中できます。

OpenShift Data Science の詳細

Red Hat OpenShift Data Science についてさらに詳しい情報をお求めの場合は、Red Hat の Chris Chase がこの新しいサービスの価値をわかりやすく紹介しているこちらのデモビデオをご覧ください。また、OpenShift Data Science のページも併せてご確認ください。


About the author

Sophie Watson is a data scientist at Red Hat, where she helps customers to solve business problems using machine learning in the hybrid cloud. She has previously conducted research in the areas of researched Bayesian Statistics and Recommendation Engines, and is focused on using her data science and statistics skills to inform next-generation infrastructure for intelligent application development.