AI 基础架构简介

Published 2026 年 2 月 9 日•7 分钟阅读

随着人工智能（AI）在我们的日常生活中用的越来越多，建立一种能够实现有效和高效工作流程的结构就至关重要。这就是人工智能基础架构（AI 基础架构）的用武之地。

精心设计的基础架构有助于数据科学家和开发人员访问数据、部署机器学习算法以及管理硬件的计算资源。

AI 基础架构结合了人工智能和机器学习（AI/ML）技术，来开发和部署可靠且可扩展的数据解决方案。正是这项技术使机器学习成为可能，让机器能够像人类一样思考。

机器学习是一项训练计算机找到模式、做出预测并从经验中学习且无需明确编程的技术。它可以用于生成式 AI，并通过深度学习实现，深度学习是一种用于分析和解释大量数据的机器学习技术。

探索红帽 AI

AI 基础架构技术堆栈

技术堆栈是一组用于构建和部署软件应用的技术、框架和工具。我们可以想象这些技术是一层一层“堆”在一起，来构建整个应用的。AI 基础架构技术堆栈可以通过三个基本层更快地开发和部署应用。

AI 技术堆栈在企业中是什么样？

应用层让人类能够在使用端到端应用或面向最终用户的应用等工具时与机器进行协作。面向最终用户的应用通常使用开源 AI 框架构建，以创建可定制的模型，并可以根据特定的业务需求进行定制。

模型层有助于 AI 产品运行。该层需要用于部署的托管解决方案。模型层包含三个模型，为整个堆栈奠定了坚实的基础。

通用 AI：模仿人类大脑的思考和决策能力。例如 OpenAI 的 ChatGPT 和 DALL-E 等 AI 应用。
特定 AI：使用特定数据来生成准确的结果。例如生成广告文案和歌词这样的任务。
超本地化 AI：可以实现最高精度和相关性的人工智能，旨在成为该领域的专家。例如撰写科学论文或创建室内设计模型

基础架构层包括构建和训练模型所需的硬件和软件。GPU（硬件）以及优化和部署工具（软件）等专用处理器等组件都属于这一层。云计算服务也是基础架构层的一部分。

现在我们已经介绍了 AI 基础架构中涉及的三个层，下面我们来了解构建、部署和维护 AI 模型所需的几个组件。

数据存储

数据存储是指收集和保留数字信息，即应用、网络协议、文档、媒体、地址簿、用户偏好等背后的位和字节。数据存储对于存储、整理和检索 AI 信息非常重要。

数据管理

数据管理是指收集、存储和使用数据的过程，这通常是由数据管理软件促成的。通过数据管理，您可以了解自己掌握哪些数据、数据所在位置、数据归谁所有、谁可以看到这些数据以及如何访问数据。通过适当的控制和实施，数据管理工作流可提供所需的分析洞察，帮助做出更好的决策。

优化软件

借助 vLLM 和 llm-d 等优化软件，让您的硬件尽可能高效地运行。

vLLM 是虚拟大语言模型的简称，它是一个开源代码库。该代码库有助于大语言模型（LLM）更高效地大规模执行计算。更具体地说，vLLM 是一种推理服务器，可通过更好地利用 GPU 内存来加快生成式 AI 应用的输出速度。
llm-d 是一个 Kubernetes 原生开源框架，可加速大规模分布式推理。llm-d 依托 vLLM 的强大功能，可充当协调器，尽可能快速高效地进行处理。

什么是 AI 推理？

机器学习框架

机器学习（ML）是人工智能（AI）的一个子类别，它使用算法来识别一组数据中的模式并进行预测，而框架则提供所需的工具和库。

机器学习运维

机器学习运维（MLOps）是一组工作流实践，旨在简化机器学习（ML）模型的生产、维护和监控过程。受 DevOps 和 GitOps 原则的启发，MLOps 旨在建立一个连续的、不断发展的过程，以便将 ML 模型集成到软件开发过程中。

了解有关构建 AI/ML 环境的更多信息

具有成熟组件的可靠 AI 基础架构有助于创新和提高效率。然而，在设计 AI 基础架构时，需要考虑一些优势、挑战和应用。

优势

AI 基础架构可为 AI 运维和企业组织带来不少好处。第一个好处是可扩展性，它能提供按需扩展和缩减运维规模的机会，尤其是使用基于云的 AI/ML 解决方案。第二个则是自动化，它允许重复工作以减少错误并增加可交付成果的周转时间。

什么是模型即服务？

挑战

尽管 AI 基础架构具备众多优势，但它确实存在一些挑战。一大关键挑战是需要处理的数据的数量和质量。由于 AI 系统依赖大量数据来学习和决策，传统的数据存储和处理方法可能不足以处理 AI 工作负载的规模和复杂性。另一大挑战是对实时分析和决策的要求。该要求意味着基础架构必须快速高效地处理数据，这需要考虑集成合适的解决方案来处理大量数据。

了解自动化可以提供的帮助

应用

有一些应用可以解决这些挑战。通过红帽® OpenShift^®云服务，您可以快速构建、部署和扩展应用。您还可以通过主动管理和支持，提高一致性和安全性，从而提高效率。红帽边缘可帮助您在更靠近数据收集地点的位置进行部署，并获得可指导行动的分析。

了解有关 AI/ML 云服务的更多信息

安全防护

AI 安全防护可防御针对 AI 应用的各类恶意攻击，防止 AI 工作负载受损、数据篡改或敏感信息泄露。它将保密性、完整性与可用性原则融入 AI 生命周期和技术生态，全面保障 AI 系统的安全与可靠。为了保护您的 AI 系统，有必要全方位了解它们的运作机制。您对 AI 技术及其基础架构了解得越多，就越能提供全面可靠的保护。

进一步了解 AI 安全防护

在考虑 AI 基础架构时，务必要重视推理。基础架构会对推理能力产生重大影响。AI 基础架构会影响以下方面：

延迟。
每秒生成的令牌数。
用户并发数。
成本。

不支持推理的 AI 基础架构可能会导致响应速度下降，出现延迟瓶颈，并且扩展成本升高。因此，支持推理功能的硬件和软件，关系到 AI 战略的成败。

为什么要关注 AI 推理

红帽^® AI 旨在通过 vLLM 驱动的服务器实现快速、灵活且高效的推理。它将模型与数据进行可靠连接，在单个平台上统一实现专业代理的自定义和开发工作。我们的产品建立在开源基础之上，让您能够端到端全方位掌控任意规模的 AI 工作流。

红帽 AI 产品组合包含红帽 AI Enterprise：这是一个用于在任何基础架构上部署、管理和扩展 AI 推理、代理式 AI 工作流和 AI 赋能应用的平台。

探索红帽 AI

扩展阅读

What are predictive analytics

预测性分析是一种分析方法，它通过分析当前数据和历史数据，来预测未来可能发生的事件或趋势。

What is llm-d?

llm-d 是一种开源的 Kubernetes 原生框架，可加速大规模的分布式 LLM 推理。

What is MLOps?

机器学习运维（MLOps）是一组工作流实践，旨在简化机器学习（ML）模型的部署和维护过程。

AI 基础架构简介

AI 基础架构技术堆栈

数据存储

数据管理

优化软件

机器学习框架

机器学习运维

红帽资源

优势

挑战

应用

安全防护

红帽官方博客

自适应企业：AI 就绪，从容应对颠覆性挑战

扩展阅读

What are predictive analytics

What is llm-d?

What is MLOps?

AI/ML 相关资源

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links