红帽 AI 推理服务器
概述
AI 的真正价值,在于能够大规模做出快速且精准的响应。红帽® AI 推理服务器通过优化混合云中的推理过程,直接实现了这种响应。优化推理这一步非常关键,它使 AI 应用能够与大语言模型(LLM)通信,并基于数据生成响应,从而实现更快、更具成本效益的模型部署。
随时随地进行快速且经济高效的推理
作为红帽 AI 平台的一部分,红帽 AI 推理服务器可大规模提供一致、快速且经济高效的推理。AI 推理服务器支持在任何硬件加速器和各种环境(数据中心、云和边缘)中运行各类生成式 AI 模型,提供满足业务需求的灵活性和多样化选择。AI 推理服务器通过两种方式提供高效推理功能:一,使用 LLM Compressor 压缩基础模型和经过训练的模型,进行模型优化;二,提供经过验证和优化的生成式 AI 模型库的访问权限,这些模型已准备就绪,可在更短的时间内实现推理部署。
红帽 AI 推理服务器可与各种硬件加速器和模型配合使用,并可在您选择的基础架构和操作系统(OS)上运行,包括红帽 AI 平台、红帽企业 Linux®、红帽 OpenShift® 以及第三方 Linux 或 Kubernetes 发行版,为客户提供契合任何架构的灵活性。
表 1.功能和优势
优势 | 说明 |
利用虚拟大语言模型 (vLLM)提供高效的模型推理方法 | AI 推理服务器通过使用 vLLM 优化图形处理单元(GPU)内存使用率和推理延迟,提供高效的模型推理方法。 |
降低运维复杂性 | AI 推理服务器为跨混合云部署和优化模型提供了一致的平台。它提供一种用户友好的方法来管理包括量化在内的高级机器学习(ML)技术,并支持与 Prometheus 和 Grafana 等可观测性工具集成。 |
提供混合云的灵活性 | AI 推理服务器以 vLLM 为核心,让企业组织能够自由地在数据中心、云环境和边缘环境等任何所需位置运行 AI 模型。 |
技术规格
- 适用于混合云的推理运行时。 AI 推理服务器以成熟且强大的推理运行时 vLLM 为核心,为企业提供了一个统一的高性能平台,支持在各种加速器、Kubernetes 和 Linux 环境中运行他们选择的模型。它还集成了可观测性工具以增强监控功能,并支持 LLM API(如 OpenAI 的 API)以实现灵活部署。
- LLM Compressor。 AI 团队可以压缩各种规模的基础模型和经过训练的模型,在保持模型高精度响应能力的同时,显著降低计算资源消耗及相关成本。此外,他们可与红帽合作,获取模型优化计划方面的支持。
- 经过优化的模型存储库。 AI 推理服务器托管在 Hugging Face 上的红帽 AI 页面,提供经过验证和优化的领先 AI 模型库的即时访问权限,这些模型已准备就绪,可随时进行推理部署,在不降低模型准确度的前提下,可将效率提升 2-4 倍。
- 经认证适用于所有红帽产品。 AI 推理服务器包含在红帽 OpenShift AI 和红帽企业 Linux AI 中,也受红帽 OpenShift 和红帽企业 Linux 支持。
- 第三方平台部署。AI 推理服务器可以跨第三方 Linux 和 Kubernetes 平台进行部署,并享受红帽第三方支持政策的保障。在此类部署场景中,红帽仅对推理服务器组件提供支持。如果出现与底层平台相关的问题,且问题无法在红帽企业 Linux 或红帽 OpenShift 上重现,则由客户自行负责处理。
探索全面优化的自动化之路
如需了解 AI 推理服务器如何帮助实现快速、经济高效且可扩展的推理,请访问红帽 AI 推理服务器产品页面。