我们很高兴推出最新的验证模型,这些模型旨在为您的部署赋能。在红帽,我们的目标是为企业组织提供所需的信心、可预测性和灵活性,使他们能够在红帽 AI 平台上部署第三方生成式 AI 模型。此版本扩展了我们经过性能基准测试和准确性评估的优化模型集合,助您缩短价值实现时间,并选择最适合您的企业用例的模型。
红帽 AI 的验证模型不仅仅是一个简单的列表,还提供了高效的企业就绪型 AI。我们将严格的性能基准测试和准确性测试与全面的打包流程相结合,旨在确保部署时兼顾安全性和简便性。每个模型都经过漏洞扫描,并集成到托管式软件生命周期中,以帮助确保您获得高性能且经过资源优化的资产,这些资产注重安全性、易于管理并可长期更新。
什么是验证模型?
大语言模型(LLM)领域正迅速扩张,这使得企业难以做出合适的选择。企业组织通常会在 AI 资源容量规划和确保模型性能可稳定复现方面面临挑战。
红帽验证模型正是为此而生。我们提供一系列现成可用的第三方模型,这些模型可在我们平台内的 vLLM 上高效运行。我们会为您执行广泛的测试,从而简化选择过程。我们的模型验证过程包括:
- 性能基准测试:使用 GuideLLM 来评估各种硬件配置下的资源需求和成本。
- 准确性评估:利用语言模型评估框架(LM Eval Harness)衡量模型对新任务的响应能力。
- 可复现部署:在高吞吐量推理引擎 vLLM 上实现可复现部署,确保您能获得一致的结果。
- 以安全为中心的企业就绪型打包:使用我们生产镜像仓库中的标准化容器格式来创建受版本控制的资产(经过漏洞扫描),从而简化部署和生命周期管理。
此过程提供了清晰明确的容量规划指导,使您能够合理调整部署规模、选择最佳硬件,并更有信心地加速投入生产环境。
红帽的模型优化功能
在部署强大的 LLM 的过程中,通常会受限于专用硬件(比如高 VRAM GPU)的高成本和稀缺性。为了降低技术使用门槛,并使企业能够以更低的成本运行这些模型(甚至在更小或更少的 GPU 上运行),红帽采用了先进的模型压缩技术。
这一关键的优化过程由 LLM 压缩器等技术驱动,采用量化(例如将模型转换为 INT4、INT8 或 FP8 动态格式)等技术,在大幅降低 LLM 的内存占用空间和计算需求的同时,仍能努力保障输出质量与准确性。
您在我们模型集合中看到的验证模型(其中许多已经过预压缩且可随时部署),正是这一优化实践的最佳例证。通过利用这些资产,红帽使您能够:
- 减少 VRAM 使用量,从而以更低成本或更少的 GPU 资源为更大的模型提供服务。
- 通过最大限度地提高硬件利用率来降低运维成本。
- 在关键推理阶段实现更高的吞吐量和更低的延迟。
这些经过优化和验证的资产可在我们的公共红帽 AI Hugging Face 存储库以及位于 registry.redhat.io 的红帽容器镜像仓库中轻松获取,为部署高性能且具有成本效益的 AI 提供了可信赖的来源。
了解最新的验证模型
最新推出的验证模型功能强大且多样化,每个模型均经过优化,可随时满足您的企业工作负载需求。
- DeepSeek-R1 INT4:一种精英编码模型,专为跨多种编程语言生成、补全和调试复杂代码而设计。
- Qwen 3 8B FP8 Dynamic:由阿里巴巴推出的一种功能强大的多语言模型,专为全球聊天机器人应用和内容创作而设计。
- Kimi K2 Quantized INT4:此模型以超大的上下文窗口而著称,这使其成为检索增强生成(RAG)和分析法律合同或研究论文等长文档的强大工具。
- Gemma-3n 4B FP8 Dynamic:Google 最新的高效模型,在摘要任务和设备端应用间实现了性能与大小的完美平衡。
- openai/gpt-oss-120b 和 openai/gpt-oss-20b:大型(及较小版本)的通用基础模型,具备复杂推理、精细内容生成和高级问题解决能力。
- Qwen3 Coder 480B-A35B-Instruct-FP8:一种大型企业级编码助手,专为要求最苛刻的软件开发和自动化管道而设计。
- Voxtral-Mini-3B-2507 FP8 Dynamic:一种专注于语音的敏捷响应模型,非常适合构建支持语音的实时应用和交互式代理。
- whisper-large v3 INT4:OpenAI 推出的尖端语音转文本模型,专为高精度音频转录、生成会议纪要和支持语音指令而设计。
- NVIDIA-Nemotron-Nano-9B-v2:NVIDIA 推出的一种新型通用推理和聊天模型,采用混合架构,适用于 AI 代理系统、聊天机器人和 RAG,并且可用于商业用途。
立即开始使用
您可通过以下两种方式立即获取这些功能强大且可直接部署的 AI 模型:
注意:所有模型均针对 vLLM(版本 0.10.1.1 或更高版本)上的部署进行了优化。
即将推出
为了实现更紧密的集成,这些模型将从 3.0 版本开始收录到红帽 OpenShift AI 目录中,并计划于 11 月正式发布(GA)。
要查看完整的性能与评估数据,请联系您的销售代表。
关于作者
My name is Rob Greenberg, Principal Product Manager for Red Hat AI, and I came over to Red Hat with the Neural Magic acquisition in January 2025. Prior to joining Red Hat, I spent 3 years at Neural Magic building and delivering tools that accelerate AI inference with optimized, open-source models. I've also had stints as a Digital Product Manager at Rocketbook and as a Technology Consultant at Accenture.