红帽 AI 推理服务器

概述

AI 的真正价值，在于能够大规模做出快速且精准的响应。红帽® AI 推理服务器通过优化混合云中的推理过程，直接实现了这种响应。优化推理这一步非常关键，它使 AI 应用能够与大语言模型（LLM）通信，并基于数据生成响应，从而实现更快、更具成本效益的模型部署。

随时随地进行快速且经济高效的推理

作为红帽 AI 平台的一部分，红帽 AI 推理服务器可大规模提供一致、快速且经济高效的推理。AI 推理服务器支持在任何硬件加速器和各种环境（数据中心、云和边缘）中运行各类生成式 AI 模型，提供满足业务需求的灵活性和多样化选择。AI 推理服务器通过两种方式提供高效推理功能：一，使用 LLM Compressor 压缩基础模型和经过训练的模型，进行模型优化；二，提供经过验证和优化的生成式 AI 模型库的访问权限，这些模型已准备就绪，可在更短的时间内实现推理部署。

红帽 AI 推理服务器可与各种硬件加速器和模型配合使用，并可在您选择的基础架构和操作系统（OS）上运行，包括红帽 AI 平台、红帽企业 Linux®、红帽 OpenShift® 以及第三方 Linux 或 Kubernetes 发行版，为客户提供契合任何架构的灵活性。

表 1.功能和优势

优势	说明
利用虚拟大语言模型（vLLM）提供高效的模型推理方法	AI 推理服务器通过使用 vLLM 优化图形处理单元（GPU）内存使用率和推理延迟，提供高效的模型推理方法。
降低运维复杂性	AI 推理服务器为跨混合云部署和优化模型提供了一致的平台。它提供一种用户友好的方法来管理包括量化在内的高级机器学习（ML）技术，并支持与 Prometheus 和 Grafana 等可观测性工具集成。
提供混合云的灵活性	AI 推理服务器以 vLLM 为核心，让企业组织能够自由地在数据中心、云环境和边缘环境等任何所需位置运行 AI 模型。

技术规格

适用于混合云的推理运行时。 AI 推理服务器以成熟且强大的推理运行时 vLLM 为核心，为企业提供了一个统一的高性能平台，支持在各种加速器、Kubernetes 和 Linux 环境中运行他们选择的模型。它还集成了可观测性工具以增强监控功能，并支持 LLM API（如 OpenAI 的 API）以实现灵活部署。
LLM Compressor。 AI 团队可以压缩各种规模的基础模型和经过训练的模型，在保持模型高精度响应能力的同时，显著降低计算资源消耗及相关成本。此外，他们可与红帽合作，获取模型优化计划方面的支持。
经过优化的模型存储库。 AI 推理服务器托管在 Hugging Face 上的红帽 AI 页面，提供经过验证和优化的领先 AI 模型库的即时访问权限，这些模型已准备就绪，可随时进行推理部署，在不降低模型准确度的前提下，可将效率提升 2-4 倍。
经认证适用于所有红帽产品。 AI 推理服务器包含在红帽 OpenShift AI 和红帽企业 Linux AI 中，也受红帽 OpenShift 和红帽企业 Linux 支持。
第三方平台部署。AI 推理服务器可以跨第三方 Linux 和 Kubernetes 平台进行部署，并享受红帽第三方支持政策的保障。在此类部署场景中，红帽仅对推理服务器组件提供支持。如果出现与底层平台相关的问题，且问题无法在红帽企业 Linux 或红帽 OpenShift 上重现，则由客户自行负责处理。

探索全面优化的自动化之路

如需了解 AI 推理服务器如何帮助实现快速、经济高效且可扩展的推理，请访问红帽 AI 推理服务器产品页面。

我们的方案

产品

参与和学习

平台解决方案

用例

行业解决方案

探索云技术

平台产品

特色产品

试用与购买

服务和支持

培训和认证

特色产品

服务

培养技能

更多学习方式

面向开发人员

面向客户

面向合作伙伴

构建由可靠的合作伙伴提供支持的解决方案

我想要：

帮我查找：

我想进一步了解：

推荐

[[name]]

红帽 AI 推理服务器

概述

随时随地进行快速且经济高效的推理

表 1.功能和优势

技术规格

探索全面优化的自动化之路

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links