前回の Red Hat OpenShift AI のリリースにより、エンタープライズ AI インフラストラクチャの強固な基盤を確立しました。本日、OpenShift AI 3.3 のリリースにより、AI プロジェクトがプロダクションに移行するのを妨げることが多い二分化する力、つまり、厳格なガバナンスの必要性と開発者からの迅速なアクセスの要求に取り組んでいます。

OpenShift AI 3.3 は、AI アセットの一元化されたハブを管理し、マルチモデル、マルチエージェントの未来に向けて最適化するために設計された一連のツールを導入しています。

一元化されたアセット:AI ハブ

企業が単一モデルのユースケースから移行するにつれて、見つけやすさにおけるボトルネックに直面します。プラットフォームチームは、AI アセットに関して、デプロイ用に構成される前にモデルを登録およびバージョン管理し、デプロイされたモデルを表示するために、信頼できる唯一の情報源を必要としています。 

また、これらのモデルの最適なデプロイ方法に関するガイダンスも必要としています。ハードウェア要件を評価し、予想されるレイテンシーとスループットを理解することは簡単ではありません。 

AI ハブはそれを提供することを目的としています。つまり、OpenShift AI 3.3 の大規模言語モデル (LLM) から今後のリリースの モデルコンテキストプロ​トコル (MCP) サーバーまで、組織の AI アセットの中央リポジトリとなります。

OpenShift AI 3.3 の AI ハブは、パフォーマンスに関する洞察と、Red Hat AI モデル検証プログラムによるパフォーマンス、コスト、ハードウェア要件のトレードオフに関するガイダンスを提供します。これにより、プラットフォームチームはデプロイを開始する前に開発者を最も効率的な構成へと導くことができます。

大規模なガバナンス: Model-as-a-Service (MaaS)

独自の GPU を構成および管理し、AI モデルをデプロイする場合、AI アプリケーションを構築するのは容易ではありません。ほとんどの開発者、AI エンジニア、データサイエンティストは、すでに稼働しているモデルのエンドポイントから開始することを好みます。こうした余分な作業をすべて依頼することは、作業スピードを低下させ、価値実現までの時間を遅らせます。また、コスト、時間、ガバナンスのいずれの面においても、スケーラブルでも効率的でもありません。 

その一方で、プラットフォームチームがこれらのモデルを全員に提供できるようにし、データサイエンティストやビジネスチームに必要なモデルへのアクセスを提供することで、アプリケーションプラットフォームに使用してきたのと同じパラダイムを拡張できるようになります。 

このシナリオでは、プラットフォームチームがモデルの提供と最適化を行い、ロールベースのアクセスポリシーを通じて制御できる一元化された AI モデルセットを提供し、使用制限や条件を設定し、モデルのバージョン管理を行います。その間、エンドユーザーにはすぐに構築を開始できる API エンドポイントが提供されます。

OpenShift AI 3.3 は、組織が独自の社内 AI モデルプロバイダーになることを支援するために設計された MaaS のテクニカルプレビューを提供します。

  • 管理者:UI で詳細なレート制限ポリシーを定義します。たとえば、日常業務で使用される小規模なモデルには高いクォータアクセスを割り当て、リソースを大量に消費する最先端のモデルにはより厳密な制限を設定することができます。
  • llm-d によるルーティングの最適化:これは、Kubernetes ネイティブの分散推論フレームワークである llm-d と連携して機能します。llm-d は、ユーザーがポリシーを設定する一方で、サービスレベル契約 (SLA) に違反することなくハードウェアを可能な限り効率的に使用できるよう、リクエストのルーティングを最適化します。

開発者のスピード:gen AI studio

AI エンジニアや開発者が構築を開始できるように、プラットフォームチームがデプロイしたモデルやアセットを一元的に登録および公開する必要があります。

開発者には、これらのモデルやアセットを試用できる一元的な場所も必要です。そこでは、デプロイに必要なインフラストラクチャの複雑さを抽象化しながら、それぞれのユースケースに最適なモデル、プロンプト、ツールを見つけられるプラグアンドプレイのアプローチが可能になります。 

gen AI studio のテクニカルプレビュー・リリースは、このプレイグラウンドと、開発者がプロンプトからパイロットへと移行するために必要なツールを提供します。

  • AI プレイグラウンド:プロンプト、モデルパラメーター、MCP ツールを使用して実験を行います。 OpenShift AI 3.3 では、独自の MCP サーバーをインポートして特定のツールのオン/オフを切り替えることができるため、信頼性の高いエージェント動作に必要な確定性が得られます。OpenShift AI UI からローカル環境に移動して、OpenShift AI 3.3 の「View Code (コードの表示)」機能を使用すると、プレイグラウンド設定を表示およびコピーできます。今後のロードマップはこれらの基盤に基づいており、プロンプト管理、検索拡張生成 (RAG) 機能、MCP ツール選択の改良など、コードのエクスポートを通じて AI エンジニアのエクスペリエンスを向上させます。
  • AI アセットエンドポイント:これらにより API キーとエンドポイントを即座に取得できるため、ローカル IDE でテストを開始できます。

プロダクション環境への展開における課題:継続的な評価と最適化

プロダクションへのデプロイを阻む最大の障壁の 1 つは、モデルの構築ではなく、コストの管理と品質の低下 (ドリフト) への対応です。

  • モデル圧縮におけるコストの最適化:OpenShift AI 3.3 では、LLM Compressor (GitHub) および GuideLLM (GitHub) 用のガイド付きワークベンチを導入します。これらは、Red Hat のモデル検証プログラムの一環としてモデルのベンチマークと圧縮を行うために、Red Hat が主導し、使用しているオープンソースのツールです。これにより、モデルのベンチマーク作成、(量子化などによる) 圧縮、および使用している環境内でのパフォーマンス向上の直接的な比較が可能になります。圧縮モデルの価値については、こちらの LLM Compressor ブログ記事をご覧ください。
  • MLflow による実験の追跡:私たちは、MLflow 統合の開発者プレビューを導入しています。圧縮とベンチマークは当面のパフォーマンスの問題を解決するのに役立ちますが、MLflow は AI ライフサイクルの「履歴メモリー」を提供します。guidellm の結果とアプリケーションの応答を MLflow に記録することで、回帰と品質を経時的に追跡し、最適化によって正確性が損なわれないようにすることができます。
  • ループの可視化:MLflow ダッシュボード内で圧縮の実験と推論レイテンシーの直接的な相関関係を確認できるようになり、パフォーマンスのトラブルシューティングを、経験則ではなくデータ駆動型のアプローチで行えるようになりました。

Red Hat OpenShift AI を試用する 

OpenShift AI 3.3 の機能は、プラットフォーム上の AI 機能へのアクセスを管理する方法を変革するように設計されています。OpenShift AI 3.3 をインストールすることで、AI ハブを体験し、gen AI studio や新しい最適化ワークベンチをプレビューできます。詳細については、プレスリリースをご覧ください。

また、Red Hat 製品トライアルセンターで、OpenShift AI をお試しいただくこともできます。このトライアルでは、これらのプロダクショングレードのツールを試用できるフルマネージド環境に 60 日間無料でアクセスできます。

製品トライアル

Red Hat OpenShift AI (セルフマネージド型) | 製品トライアル

ハイブリッドクラウド用のオープンソース機械学習 (ML) プラットフォーム。

執筆者紹介

Jenny is a Technical Product Manager at Red Hat AI, where she focuses on the end-to-end platform experience for Red Hat AI Enterprise. She joined Red Hat through the Neural Magic acquisition, where she created user interfaces for LLM benchmarking and an AI control plane. Before moving into AI, she consulted for healthcare organizations and public health agencies, experiences that shape her focus on building AI tooling that supports practitioners in high-stakes, deeply specialized domains.

Jehlum is a Product Manager in the Red Hat AI team. She's focused on building platforms for generative AI applications. I am especially interested in data processing, observability, safety, evaluation - all key components to build production-grade generative AI applications on platforms that scale.

Taylor specializes in helping global enterprises transition Generative AI from experimental pilots to production-scale deployments. A specialist in large-scale inference and agentic systems, Taylor bridges the gap between complex infrastructure and practical application development. She is a dedicated advocate for open-source ecosystems, leveraging projects such as vLLM, llm-d and MLflow to build sovereign, secure, and observable AI stacks. Her work is centered on empowering organizations to reclaim control over their AI lifecycle through transparent and scalable open-source solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

チャンネル別に見る

automation icon

自動化

テクノロジー、チームおよび環境に関する IT 自動化の最新情報

AI icon

AI (人工知能)

お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート

open hybrid cloud icon

オープン・ハイブリッドクラウド

ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。

security icon

セキュリティ

環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報

edge icon

エッジコンピューティング

エッジでの運用を単純化するプラットフォームのアップデート

Infrastructure icon

インフラストラクチャ

世界有数のエンタープライズ向け Linux プラットフォームの最新情報

application development icon

アプリケーション

アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細

Virtualization icon

仮想化

オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください