AI 推論を重視すべき理由

だからこそ、vLLM コミュニティは活発で活気に満ちているのです。このプロジェクトには、Hugging Face、UC Berkeley、NVIDIA、Red Hat などの熱心なグループが貢献しています。このコミュニティは、オープンソース・プロジェクトのソフトウェアに継続的に挑戦し、改善を続けています。

すべての主要モデルとアクセラレーターの Day 0 サポートが提供されており、そのアクセシビリティは産業界と学術界の両方にとって魅力的なものとなっています。

vLLM コミュニティに参加

vLLM ミートアップに登録

vLLM Office Hours

* コミットとは、コントリビューターが vLLM を自分のユースケースに合わせて調整する際に、オープンソース・プロジェクトに対して行う更新、変更、保存のことです。

1 万以上

2025 年の vLLM GitHub のコミット数* (増加率 200%)

vLLM コミュニティの現状

50 万以上

年中稼働のデプロイ済み GPU 数⁸

200 以上

アクセラレーターのタイプ数⁹

500 以上

サポートされているモデルアーキテクチャ数⁹

2,200 以上

コントリビューター数 (実数)⁹

分散推論の役割

分散推論を使用すると、AI モデルは相互接続されたデバイスのグループの中で推論処理を分割できます。

1 つのモデルが複数の要求をすべて同時に処理できれば、必要なハードウェアが大幅に削減され、推論の効率が向上します。

分散推論では、テンソル並列処理、インテリジェントな推論スケジューリング、ディスアグリゲーションなどの手法が使用されます。vLLM を併用すれば、推論は非常に効率的なマルチタスクのマシンとなります。

これにより、推論の可観測性、スケーラビリティ、一貫性が維持されます。

分散推論とは

分散推論の概要

3.9 倍

分散推論アーキテクチャであるテンソル並列処理を使用した場合のトークンのスループット向上率¹⁰

オープンソース・コミュニティ

llm-d と呼ばれるコミュニティがあります。

llm-d は、大規模な分散推論を構築するための青写真を開発者に提供するオープンソース・フレームワークです。

モジュール式のアーキテクチャなので、高度な LLM の複雑なリソース要求をサポートし、手動の断片化されたプロセスを統合された「明るい道筋」に置き換えて、パイロットからプロダクションまでの時間を短縮できます。

llm-d を使うと Kubernetes で推論ができるようになるので、分散推論を独自のエンタープライズ・ユースケースに適用するのに役立つ標準化されたツールキットが得られます。

llm-d とは

分散推論と llm-d の詳細

llm-d が必要な理由

llm-d の「明るい道筋」を迅速に使い始める

2 倍

llm-d が維持する 1 秒あたりのクエリ数 (QPS) のベースライン¹¹

その他の AI 関連資料

意思決定者向け

e ブック

Red Hat AI エキスパートが推論を解説

e ブック

Red Hat AI によるエージェント型 AI システム

ブログ

よりスマートな AI：推論時間スケーリング

ポッドキャスト

vLLM でより効率的な AI を構築

記事

生成 AI とは

記事

企業で AI を拡張する方法

ブログ

圧縮モデルが推論コストの削減につながる理由

実務担当者向け

製品

Red Hat AI Inference Server の詳細

ブログ

Kubernetes ネイティブの分散推論

ブログ

Ollama と vLLM

動画

llm-d を使用して vLLM で構築

ポッドキャスト

AI エージェント向けプラットフォーム・エンジニアリング

ブログ

OpenShift AI による vLLM の自動スケーリング

ポッドキャスト

本番利用に適した AI ツールボックスの構築

ブログ

効果的な AI 提供に向けたアイルランドの次のステップ

ポッドキャスト

AI で医療研究を促進

Red Hat AI Inference Server

LLM をコードからプロダクションへと迅速に移行しましょう。

Red Hat のエンタープライズグレードの推論エンジンは vLLM を使用して構築されており、パフォーマンスを犠牲にすることなく推論を高速化します。

どのようなクラウド環境でどの AI アクセラレーターを使用していても、好みの最適化された生成 AI モデルを使用してハイブリッドクラウド全体を拡張できます。

詳細はこちら

製品を使ってみる

引用の出典

[1] 「Why AI’s Next Phase Will Likely Demand More Computing Power—Not Less」、The Wall Street Journal、2026 年 1 月 22 日。

[2] Eldar Kurtić、他、「We ran over half a million evaluations on quantized LLMs—here's what we found」、Red Hat Developer ブログ、2024 年 10 月 17 日。

[3] Carlos Condado、「AI 推論パフォーマンスへの戦略的アプローチ」、Red Hat ブログ、2025 年 9 月 15 日。

[4] Saša Zelenović、「LLM の潜在能力を最大限に引き出す：vLLM でパフォーマンスを最適化」、Red Hat ブログ、2025 年 2 月 27 日。

[5] Eldar Kurtić、他、「2:4 Sparse Llama:Smaller models for efficient GPU inference」、Red Hat Developer ブログ、2025 年 2 月 28 日。

[6] Alexandre Marques、他、「Fly Eagle(3) fly:Faster inference with vLLM & speculative decoding」、Red Hat Developer ブログ、2025 年 7 月 1 日。

[7] Woosuk Kwon、他、「vLLM:Easy, Fast, and Cheap LLM Serving with PagedAttention」、vLLM ブログ、2023 年 6 月 20 日。

[8] Michael Goin、「[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025」、YouTube、2025 年 12 月 8 日。

[9] Woosuk Kwon、「Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale」、X、2026 年 1 月 26 日。

[10] Michael Goin、「Distributed inference with vLLM」、Red Hat Developer、2025 年 2 月 6 日。

[11] Robert Shaw、「llm-d:Kubernetes-native distributed inferencing」、Red Hat Developers、2025 年 5 月 20 日。

AI 推論を重視すべき理由

推論が重要な理由

拡張を妨げる要素

66%

より優れた推論方法

99% 超

2 倍

50%

vLLM が推論を最適化する方法

50%

2.1 倍

24 倍

vLLM が人気の理由

1 万以上

vLLM コミュニティの現状

50 万以上

200 以上

500 以上

2,200 以上

分散推論の役割

3.9 倍

オープンソース・コミュニティ

2 倍

その他の AI 関連資料

Red Hat AI エキスパートが推論を解説

Red Hat AI によるエージェント型 AI システム

よりスマートな AI：推論時間スケーリング

vLLM でより効率的な AI を構築

生成 AI とは

企業で AI を拡張する方法

圧縮モデルが推論コストの削減につながる理由

Red Hat AI Inference Server の詳細

Kubernetes ネイティブの分散推論

Ollama と vLLM

llm-d を使用して vLLM で構築

AI エージェント向けプラットフォーム・エンジニアリング

OpenShift AI による vLLM の自動スケーリング

本番利用に適した AI ツールボックスの構築

効果的な AI 提供に向けたアイルランドの次のステップ

AI で医療研究を促進

Red Hat AI Inference Server

LLM をコードからプロダクションへと迅速に移行しましょう。

引用の出典

プラットフォーム

ツール

試用、購入、販売

コミュニケーション

Red Hat について

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links