AI 推論とは何か

URL をコピー

AI 推論とは、AI モデルがデータに基づいて答えを導き出すことです。一般的に「AI」と呼ばれるものは、実際には AI による推論が成功したものであり、機械学習テクノロジーの長く複雑なプロセスにおける最終ステップである「なるほど!」という瞬間です。

十分なデータを使用して人工知能 (AI) モデルをトレーニングすると、AI 推論の精度と速度を向上させることができます。

Red Hat AI の詳細

たとえば、動物に関するデータ (その相違点や類似点から一般的な健康状態や行動まで) に基づいて AI モデルをトレーニングする場合、関連付けを行ってパターンを見出すには大量のデータセットが必要です。

トレーニングが適切に完了すると、モデルは犬種の特定や猫の鳴き声の認識といった推論だけでなく、びっくりして逃げ出した馬の周囲に警告を出すことも可能になります。モデルは抽象的なデータセットでしかこれらの動物を知らないにもかかわらず、トレーニングに使用された膨大なデータに基づき、新しい環境下でもリアルタイムで推論を行えます。

人間の脳も同様に、このような関連付けを行っています。私たちはさまざまな動物について、本や映画、オンライン上のリソースなどから情報を得ています。写真や動画を見たり、動物の鳴き声を聞いたりできます。動物園に行くと、「あれはバッファローだ」と推論できます。動物園に行くのが初めてでも、それまでの学習に基づき動物を識別できるのです。同じことが推論中の AI モデルにも当てはまります。

次のライブイベントでは、Red Hat AI の新機能や今後の展望についてご紹介します。次のライブセッションにご注目ください。

AI 推論は AI の運用フェーズであり、モデルはトレーニングで学んだことを現実世界の状況に適用できます。パターンを識別して結論を導き出す AI の能力は、他のテクノロジーとは一線を画すものです。AI の推論能力は、日常的な業務にも、非常に複雑なコンピュータ・プログラミングにも役立ちます。

予測型 AI と生成 AI

Red Hat AI

今日、企業は日常のさまざまなユースケースで AI 推論を使用できます。その例をいくつかご紹介します。

医療:AI 推論は、医療従事者が患者の病歴と現在のデータを比較するのに役立ち、パターンや異常を人間よりも迅速に検出できます。例として、脳スキャンにおける異常値や不規則な心拍の発見などが挙げられます。これにより患者の健康を脅かす兆候を、より早い段階で迅速に検知できるようになります。 

金融:銀行取引や信用に関する大量のデータセットでトレーニングされた AI 推論は、エラーや異常なデータをリアルタイムで特定し、不正行為を早期かつ迅速に発見できます。これにより、カスタマー・サービス・リソースの最適化や顧客プライバシーの保護、ブランドの評判を向上させるといったことが可能になります。

自動車:AI の導入が進む自動車業界では、自動運転車が私たちの運転方法を変えつつあります。AI 推論は、車両が A 地点から B 地点までの最も効率的なルートを選択したり、停止標識に接近した際にブレーキをかけたりするのに役立ち、いずれも車内の快適性や安全性の向上につながります。

AI 推論は他の多くの産業分野でも、独創的な方法による活用が進んでいます。たとえば、ファストフードのドライブスルー、動物病院、ホテルのコンシェルジュなどでも活用できます。多くの企業が、精度の向上、時間とコストの削減、競争力の維持などに、このテクノロジーを活用する方法を模索しています。

 その他の AI/ML ユースケース

AI トレーニングとは、データを使用して、関連付けの方法やパターンの識別方法をモデルに教えるプロセスです。トレーニングはモデルに学習させるプロセスであり、推論は稼働している AI モデルによる動作です。

基盤モデルとは

AI トレーニングの大半は、モデル構築の初期段階で行われます。トレーニングが完了すると、モデルはそれまで遭遇したことのないデータとの関連付けを行えるようになります。より大きなデータセットで AI モデルをトレーニングすると、より多くの関連性を学習して、より正確な推論を行うことができます。トレーニング後に、モデルが正確な推論を行うのに苦戦している場合は、ファインチューニングによって知識を追加し、精度を向上させることも可能です。

トレーニングや AI 推論は、証拠や論理的思考に基づいて結論を導き出すといった人間の能力を、AI が模倣するための方法です。 

モデルのサイズなどの要因によって、モデルを操作するために必要なリソースの量は変動します。 

モデルを小さくすると GPU による推論がより簡単になる仕組みを見る

AI 推論はその種類によって、サポート可能なユースケースが異なります。

  • バッチ推論:バッチ推論の名称は、大量のデータをまとめて受け取り、処理することに由来します。この方法では、推論をリアルタイムで行うのではなく、データ量や AI モデルの効率性に応じて、1 時間ごと、あるいは 1 日ごとにデータを断続的に処理します。こうした推論は「オフライン推論」または「静的推論」とも呼ばれます。
  • オンライン推論:オンライン推論または「動的」推論は、回答をリアルタイムで提供できます。このタイプの推論には、レイテンシーの障壁を低減し、高速な予測をサポートできるハードウェアとソフトウェアが必要です。オンライン推論はエッジ、すなわちデータが存在する場所での AI 処理に役立ちます。具体的な場所としては、携帯電話、車内、接続が限られているリモートオフィスなどが挙げられます。

    OpenAI の ChatGPT はオンライン推論の代表例であり、正確な回答を迅速に提供するために、事前に多くの運用サポートを必要とします。

  • ストリーミング推論:ストリーミング推論とは、必ずしも人間とのコミュニケーションに使用されない AI システムを指します。モデルは、プロンプトやリクエストの代わりに、継続的にデータを受け取り、予測を行ったり、内部データベースを更新したりします。ストリーミング推論は、変化を監視したり、規則性を維持したり、問題を発生前に予測したりするのに役立ちます。 

vLLM による分散推論がボトルネックを軽減する方法について見る

AI 推論サーバーとは、AI モデルをトレーニング段階から運用段階に前進させるのに役立つソフトウェアです。AI 推論サーバーは機械学習を使用して、モデルが学習した内容を実地に適用して推論を生成できるように支援します。

有効な結果を得るには、AI 推論サーバーと AI モデルに互換性が必要です。推論サーバーの種類と、それらに最適なモデルの例をご紹介します。

  • マルチモーダル推論サーバー:この種の推論サーバーは、複数のモデルを同時にサポートできます。すなわち、コード、イメージ、またはテキスト形式でデータを受け取り、これらの異なる推論をすべて単一のサーバー上で実行できます。マルチモーダル推論サーバーでは、複数のモデルをサポートするために、GPU メモリと CPU メモリが効率的に使用されます。これにより、ハードウェアが効率化され、スケーリングが容易になり、コストが最適化されます。
  • シングルモデル推論サーバー:この推論サーバーは、複数のモデルではなく、1 つのモデルのみをサポートします。AI 推論プロセスは、特定のユースケース向けにトレーニングされたモデルとの対話に特化されており、テキスト形式やコード形式など、特定の形式のデータのみを処理できます。このような特定のものに特化した推論サーバーは効率性に優れており、リアルタイムの意思決定やリソースの制約に役立ちます。 

AI 推論を実行する上で最大の課題となるのが、スケーリング、リソース、コストです。

  • 複雑性:画像を生成したり、返品ポリシーを顧客に知らせたりといった、単純なタスクについてモデルをトレーニングするのは比較的容易です。一方、金融詐欺の検知や医療上の異常の特定など、より複雑なデータをモデルに学習させるためには、トレーニング中により多くのデータと、そのデータを支えるリソースが必要になります。 
     
  • リソース:より複雑なモデルでは、モデルによる推論の生成に伴う膨大なデータ処理をサポートするために、専門のハードウェアおよびソフトウェアが必要になります。これらのリソースの中核となるコンポーネントが、中央処理装置 (CPU) メモリーです。CPU は、コンピュータのハブまたは制御センターとよく呼ばれます。モデルが、既知の情報 (トレーニングデータ) を使用して回答を生成する準備をする際には、CPU メモリー空間に保持されているデータを参照する必要があります。 
     
  • コスト:AI 推論に必要なこれらの要素は、いずれも安価ではありません。目指すゴールが規模の拡張であれ、最新の AI 対応ハードウェアへの移行であれ、その実現には膨大なリソースが必要になる可能性があります。モデルの複雑化とハードウェアの進化が進むにつれて、コストが急上昇し、組織が AI イノベーションについていくことが難しくなる可能性があります。  

 

エンタープライズでのスケーリングの場合、AI 推論はさらに複雑になります。また、ユーザーが大規模な推論を簡単に実行できないと、市場投入までの時間が長くなり、生成 AI のユースケースを組織全体に適用することが難しくなります。

llm-d は、大規模な分散推論を高速化するオープンソースの AI フレームワークです。つまり、llm-d は LLM 推論の複雑で不均一なニーズをサポートできます。llm-d や LLM Compressor などのツールを使用すると、推論が迅速になり、チームとリソースの負担が大きく軽減されます。

vLLM とは何か 

AI 推論は大量かつ非常に多様なユースケースで使用されています。しかし、LLM を一貫性を持って大規模にデプロイするには、多くのコンピューティングパワー、リソース、専門的な運用スキルが必要です。vLLM は、企業における AI 推論をサポートするために必要なハードウェアの使用を効率化することで、これらの課題を解決できます。このため、vLLM は、スピードに加えて柔軟性と制御性を必要とする業界にとって特に魅力的な選択肢です。

vLLM とOllama:それぞれのフレームワークをいつ使用するか

オープンソース・ソリューションである vLLM により、企業は次のことが可能になります。 

  • GPU を所有および管理する。
  • データを制御する。
  • 最先端のモデルがリリースされたらすぐに試してみる。

vLLM は、NVIDIA GPU や AMD GPU、Google TPU、Intel Gaudi、AWS Neuron など、さまざまなハードウェアにデプロイできます。また、vLLM は特定のハードウェアに制限されるものではなく、クラウド、データセンター、エッジのいずれでも機能します。 

著名な組織が効果的な拡張を実現するために vLLM を活用しています。以下の 3 つの実例で詳細をご確認ください。

3 つの実際の vLLM のユースケースを見る

Red Hat AI は、AI 導入の初期段階にある企業から、AI を拡張する準備ができている企業まで、AI 導入のあらゆる段階で役立つ製品およびサービスのプラットフォームです。企業独自のユースケースに応じて、生成 AI および予測型 AI のいずれの取り組みもサポート可能です。

Red Hat AI を使用すると、Red Hat® AI Inference Server にアクセスしてハイブリッドクラウド全体でモデル推論を最適化し、より迅速でコスト効率の高いデプロイメントを実現できます。vLLM を搭載した推論サーバーは、GPU の使用率を最大化し、応答時間を短縮します。

Red Hat AI Inference Server の詳細を見る

Red Hat AI Inference Server には Red Hat AI リポジトリが含まれています。これは、サードパーティによって検証および最適化されたモデルのコレクションであり、モデルの柔軟性を実現し、チーム間の一貫性を促進します。サードパーティのモデルリポジトリにアクセスすることで、企業は市場投入時間を短縮し、AI の成功に対する財務上の障壁を緩和することができます。  

Hugging Face のリポジトリを確認する

Red Hat AI による検証済みモデルの詳細を見る

Red Hat AI は、さまざまなインフラストラクチャにわたるパフォーマンス、安定性、GPU サポートに重点を置いた、オープンソース・テクノロジーおよびパートナーエコシステムに支えられています。

パートナーエコシステムを確認する

リソース

エンタープライズ AI を始める:初心者向けガイド

この初心者向けガイドでは、Red Hat OpenShift AI と Red Hat Enterprise Linux AI によって AI 導入をどのように加速できるのかについて説明します。

Red Hat AI

Red Hat AI は、ハイブリッドクラウド環境全体にわたって AI ソリューションの開発とデプロイメントを加速する、柔軟でコスト効率に優れたソリューションを提供します。

関連情報

vLLM とは

vLLM は、言語モデルがより効率的に計算を行うのに役立つオープンソースコードの集合です。

説明可能な AI とは

説明可能な AI (XAI) は機械学習 (ML) ライフサイクル中に適用される技法で、AI による出力を人間にとってより理解しやすく透明性の高いものにします。

vLLM による AI 推論の高速化:大手 3 社のユースケース

この記事では、有名企業における vLLM 活用の成功例を 3 つご紹介します。

AI/MLリソース

関連記事