大規模言語モデル (LLM) のイノベーションのスピードは驚くべきものですが、企業がこれらのモデルをプロダクションに移行するにつれて、話題が単なる規模の問題から、トークンあたりの効率性やターゲットを絞ったスマートな計算能力の使用へとシフトします。
簡単に言えば、すべてのプロンプトで同じレベルの推論が必要なわけではないことに気づきます。ユーザーが「ノースカロライナ州の首都はどこか」のような単純なリクエストをした場合、たとえば財務予測などに必要な多段階の推論プロセスは不要です。すべてのリクエストに対して負荷の高い推論モデルを使用すると、コストがかかり、非効率的になります。このジレンマは、推論予算の実装における課題と言われており、これが Red Hat が vLLM Semantic Router を開発した理由です。vLLM Semantic Router は、各タスクに最適なモデルをインテリジェントに選択し、コストと効率を最適化して使いやすさを最大化するオープンソース・プロジェクトです。
vLLM Semantic Router とは
vLLM Semantic Router は、効率性の高い vLLM 推論エンジン用のインテリジェントなコスト認識型のリクエスト・ルーティング・レイヤーとして機能するオープンソースシステムです。LLM 推論パイプラインの意思決定者にとっては、これは、セマンティック対応の動的なルーティングにより、各種の効率性の課題に対応するので役に立ちます。
- ModernBERT やその他の事前トレーニング済みモデルなどの軽量な分類器を利用して、クエリの意図と複雑性を分析する
- シンプルなクエリをより小規模で高速な LLM または推論機能を持たないモデルにルーティングして、コンピュートリソースを節約する
- 深い分析を必要とする複雑なリクエストを、より強力な推論対応モデルにダイレクトする
vLLM Semantic Router の目的は、生成されたすべてのトークンで価値を付加できるようにすることです。Rust で作成され、Hugging Face の Candle フレームワークを使用するこのルーターは、パフォーマンス強化のために低レイテンシーと高同時実行性を提供します。
オープンソースの力により、vLLM Semantic Router は効率的なモデル切り替えとセマンティック認識ルーティングを提供することで、モデルの柔軟性を促進します。これにより、開発者はタスクに適した LLM または推論モードを自動的に選択して、効率性と精度をきめ細かく制御できます。同じく重要な点として、このプロジェクトは Envoy ext_proc プラグインを使用し、Kubernetes とのネイティブ統合により、クラウドネイティブなデプロイメントをサポートします。つまり、vLLM Semantic Router は、Red Hat OpenShift を使用してハイブリッドクラウド環境全体でデプロイ、管理、スケーリングできるように設計されており、あらゆるクラウドでのクラウドネイティブのベストプラクティスを完全にサポートします。
vLLM Semantic Router と llm-d
vLLM Semantic Router では、デプロイメントの数多くのユースケースがあります。企業ユーザーは、クラスタ全体の llm-d デプロイメントに同じルーティングの概念を適用できます。あるチームはプロダクション H100 クラスタで実行される GPT-OSS-120B モデルを使用し、別のチームは実験用に A100 ハードウェアで同じモデルにアクセスできます。llm-d に統合された vLLM Semantic Router のトリアージ機能を使用すると、リクエストは単一の Ingress ポイントを共有し、適切なインフラストラクチャ・エンドポイントにインテリジェントにルーティングされるため、ユーザー、ポリシーや利用可能なコンピューティング・リソースに基づいて最適なパフォーマンスが確保されます。
vLLM Semantic Router は、llm-d でデプロイする場合、セマンティック・キャッシングとジェイルブレイク (jailbreak) 検出をサポートします。セマンティック・キャッシングにより、繰り返しのプロンプトや類似のプロンプトで既存の推論結果を再利用できるため、冗長なクエリの計算オーバーヘッドを削減できます。これは、繰り返し発生する質問パターンやチャットセッションがある本番環境でとくに有効です。ジェイルブレイク (jailbreak) 検出機能は、llm-d の分散ルーティングレイヤーを活用して、非準拠のリクエストが推論エンジンに到達する前にフラグを立てます。この組み合わせにより、企業はより安全で効率的な、ポリシー対応の推論ワークフローを利用できるようになります。
企業とコミュニティにおける価値
企業の場合、vLLM Semantic Router を使用することは、コストと精度のトレードオフを解決するため、直接的に測定可能なビジネス価値につながります。MMLU-Pro および Qwen3 30B モデルを使用して推論モードを自動調整するプロジェクトのベンチマークにより、効率が大幅に向上しました。複雑なタスクの精度は 10.2% 向上し、レイテンシーとトークン使用量はそれぞれ 47.1%、48.5% 減少しました。これらの結果は、vLLM Semantic Router が全体的な運用コストの削減に役立つだけでなく、推論モデルのフットプリントの管理にも役立ち、より持続可能なエネルギー使用につながることを示しています。
vLLM Semantic Router の開発を始めた頃、この種の推論を認識するルーティングは、主にクローズドなプロプライエタリー・システムでのみ利用可能であると認識していました。しかしながら、Red Hat のオープンソースの DNA は、この重要な機能をオープンソース・コミュニティにもたらし、誰もがアクセスできる透明性の高いものにすることを要求しました。発表直後の反響を見ると、この必要性の大きさがすぐに分かります。このプロジェクトはすぐにコミュニティで強力な勢いを増し、登場からわずか 2 カ月で GitHub で 2,000 を超えるスターと約 300 のフォークを獲得しました。オープンソース・コミュニティからの支援の表明は、AI インフラの未来がどのように構築されるかについて、私がすでに知っていたこと (つまり、コラボレーションによって、オープンな形で築かれるという点) を裏付けるものでした。
Red Hat は AI 時代に向けた明確なビジョンを持っています。モデル、基盤となるアクセラレーター、デプロイ環境に関係なく、vLLM は新しいハイブリッドクラウドにおける推論のための決定的なオープンスタンダードになることを目指しています。そして、vLLM Semantic Router がその実現を担います。
推論の進化は、「実行できるか」から「どうすればより良く実行できるか」へと移行しています。vLLM Semantic Router は、その洗練されたタスク対応のコンピュートレイヤーを提供し、効率的で責任ある、エンタープライズ対応 AI の構築に必要なオープンソースツールを企業に提供します。LLM 推論の次の段階を共に切り開いていけることを願っています。本プロジェクトの Webサイトと GitHub の vLLM Semantic Router コミュニティをぜひご覧ください。
執筆者紹介
Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.
類似検索
When less is more: Why less precision and fewer parameters carry enterprise AI
AI optimization: 7 powerful techniques you can use today!
Command Line Heroes: Season 2: Bonus_Developer Advocacy Roundtable
Do We Still Need Strong Copyleft Licenses? | Compiler
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください