什么是大语言模型？

Published 2025 年 8 月 15 日•12 分钟阅读

大语言模型（LLM）是一种利用机器学习技术来理解和生成人类语言的人工智能模型。对于希望从各个方面增强通信和数据处理并实现自动化的企业和组织而言，LLM 具有极高的价值。

LLM 使用基于神经网络的模型，通常运用自然语言处理（NLP）技术来处理和计算其输出。NLP 是人工智能（AI）的一个分支领域，专注于使计算机能够理解、解释和生成文本，从而让 LLM 能够执行文本分析、情绪分析、语言翻译和语音识别等任务。

LLM 的完整生命周期涉及多个阶段，具体包括：

数据准备。收集、清理和整理用于训练 LLM 的原始数据。此步骤涉及数据清理（删除重复项和错误）、数据过滤（删除有偏见、淫亵或受版权保护的内容），以及词元化（将文本分解为模型可理解的单元）。

训练。 LLM 通过训练构建知识体系，从而形成对语言的理解。训练 LLM 的第一个阶段称为“预训练”，涉及一种称为“自监督学习（SSL）”的方法。SSL 是一种无监督学习，需要为机器学习模型提供原始数据集（包含数千亿个单词和短语），供其研究和学习。

接下来，LLM 将通过微调和对齐继续进行训练。这通常通过以下方法实现：

监督学习：您为模型提供一个数据集，其中所有输入数据都已标有正确答案。它的任务是研究输入数据与其正确标签之间的关系。监督学习有助于预测未来可能发生的情况。
强化学习：您可以为模型设定一个目标和一组规则，但不提供标记数据。它的任务是通过交互来学习，并根据自己的行为获得“奖励”或“惩罚”。强化学习能够帮助提出下一步行动建议。

在训练过程中，计算机从数据中提取信息，创建连接，并“学习”语言。最终形成能够捕捉单词和句子之间复杂关系的模型。

推理。模型训练完成后，便会进入推理阶段。此时，LLM 可以处理实时数据以进行即时预测。这时，推理服务器就变得至关重要。

推理服务器在云基础架构中运行，充当硬件和面向用户的应用之间的桥梁。它的作用是通过管理资源请求来优化模型，并确保处理过程尽可能快速完成。

vLLM 是该领域的领先工具。vLLM 是一种节省内存的推理服务器和引擎，旨在提升混合云环境中大语言模型的运行速度和处理能力。

vLLM 与Ollama 的对比：各自的适用场景

LLM 需要许多资源

由于 LLM 会不断计算来找到不同语言元素之间的联系，因此需要大量计算资源。它们获取计算能力的一大来源是图形处理单元（GPU）。GPU 是一种专门用于处理复杂并行处理任务的硬件，非常适合需要大量计算的 ML 和深度学习模型，如 LLM。

某些技术可以帮助压缩模型，以在不牺牲准确性的情况下提升速度。如果您资源有限，可以利用 LoRA 和 QLoRA 这两种高效节能的微调技术，它们可以帮助用户优化时间安排并合理利用计算资源。

vLLM 是一款推理服务器，能够帮助 LLM 更高效地利用 GPU 资源。它采用连续批处理、PagedAttention 技术，并结合量化技术，优化 LLM 的内存利用率。

了解三家知名企业组织如何利用 vLLM 更高效地实现扩展。

3 个 vLLM 真实用例

LLM 和 Transformer

GPU 也有助于加速 Transformer 的训练和运行，Transformer 是一种专门为大多数 LLM 所实施的 NLP 任务设计的软件架构。Transformer 是流行的 LLM 基础模型（如 ChatGPT、Claude 和 Gemini）的基本构建块。

Transformer 架构通过有效捕捉数据序列中元素（如句子中的单词）之间的上下文关系和依赖关系，增强机器学习模型的能力。它通过使用自注意力机制（也称为参数）来实现这一点，使模型能够权衡序列中不同元素的重要性，从而加强其理解和性能。参数定义边界，而边界对于理解深度学习算法必须处理的大量数据至关重要。

Transformer 架构涉及数百万或数十亿个参数，这些参数使它能够捕捉复杂的语言模式和细微差别。事实上，“大语言模型”中的“大”字指的就是运行 LLM 所需的大量参数。

LLM 和深度学习

引导 LLM 无监督学习过程的 Transformer 和参数都是一个更宽泛的结构——深度学习——的组成部分。深度学习是用来训练计算机以模拟人脑的算法来处理数据的人工智能技术。深度学习技术也称为深度神经学习或深度神经网络，旨在让计算机通过观察来学习、模仿人类获取知识的方式。

人脑中有很多相互连接的神经元，当大脑处理信息（或数据）时，这些神经元就负责传递信息。神经元之间通过电信号和化学物质相互作用，并在大脑的不同区域之间传递信息。

人工神经网络（ANN）是模仿这种生物学现象而构成的，是深度学习所依托的底层架构，然而，ANN 使用的是人工神经元而不是生物神经元，这些人工神经元是由称为节点的软件模块构成的。这些节点使用数学计算（而不是大脑中的化学信号），在模型内进行通信和传递信息。

了解大语言模型（LLM）的运作方式

最新的 LLM 可以理解和使用语言，这在过去是个人电脑所无法企及的。这类机器学习模型可以生成文本，归纳内容，以及进行翻译、重写、归类、分类和分析等。所有这些能力都为人类提供了一个强大的工具集，增强了我们的创造力，并且提高了解决难题的效率。

什么是模型即服务？

LLM 在业务环境中的一些常见用途包括：

自动化和效率

LLM 可以帮助补充或完全承担与语言相关的任务，如客户支持、数据分析和内容生成。这种自动化可以降低运维成本，同时为更具战略性的任务腾出人力资源。

生成见解

LLM 可以快速扫描大量文本数据，使企业能够通过抓取社交媒体、评论和研究论文等来源，更好地了解市场趋势和客户反馈，这反过来又有助于为业务决策提供信息。

创造更出色的客户体验

LLM 可帮助企业向客户提供高度个性化的内容，加强客户互动并改善用户体验。这可以表现为实施一个聊天机器人来提供全天候客户支持，根据特定用户角色定制营销信息，或者促进语言翻译和跨文化交流。

探索生成式 AI 用例

虽然在业务环境中使用 LLM 有许多潜在优势，但也有潜在的局限性需要考虑：

成本

LLM 需要大量资源来开发、训练和部署。这就是为什么许多 LLM 都是从基础模型构建而来，后者已经预先训练了 NLP 能力并可提供对语言的基准理解，因此从中可以构建更复杂的 LLM。具有开源许可的 LLM 可免费使用，这使其成为无力自行开发 LLM 的企业组织的理想之选。

速度

LLM 提示词往往复杂且不统一，处理海量数据通常需要大量计算资源与存储支持。llm-d 这类开源 AI 框架让开发人员可借助分布式推理等技术，满足 LLM 等复杂大型推理模型日益增长的需求。

分布式推理和 llm-d 采用模块化架构，将推理任务分配到多台硬件设备上协同处理，助力 AI 工作负载高效运行，显著提升模型推理速度。

隐私和安全

LLM 需要访问大量信息，有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问，那就必须特别谨慎小心。

进一步了解 AI 安全防护

准确性和偏见

如果深度学习模型使用的训练数据存在统计学上的偏差，或者不能准确表示总体，则输出就可能存在缺陷。不幸的是，现有的人类偏见通常会传导到人工智能上，从而带来歧视性算法和偏见输出的风险。随着越来越多的企业利用 AI 来提高生产力和性能，至关重要的是制定相关策略，来尽量减少偏见。这首先需要确保在整个设计过程中秉持包容性的理念，并且要更深远地考虑所收集的数据是否代表足够的多样性。

了解 AI 如何助力企业发展

LLM 的优势和局限

大语言模型（LLM）在自然语言理解和生成方面具有显著优势，支持创建多样化的内容，通过代码辅助提高开发人员的工作效率，并可执行摘要和翻译等任务。它们在数据分析方面表现卓越，能够提供可扩展的解决方案，并改善个性化体验。然而，主要局限包括：容易出现幻觉和事实错误、缺乏实时知识，以及复杂推理能力不足。此外，LLM 还存在固有偏见、计算成本高昂、“黑箱”问题（缺乏透明度）和数据隐私/安全风险等方面的挑战，以及潜在的不确定性行为和过度依赖。

AI 使用中的监管和道德考量

对于使用 LLM 的企业组织而言，监管和道德考量是一项重大挑战，主要是因为它们具有强大的功能和潜在的危害性。从伦理角度来看，一个核心问题是偏见，因为大语言模型（LLM）从海量数据集中学习，这些数据集可能反映并会放大社会偏见，从而导致歧视性输出。另一个问题是幻觉。LLM 能够以令人信服的方式呈现虚假信息；道德部署要求建立相应机制，通过免责声明和事实准确性检查等来最大限度地减少虚假信息，尤其是在医疗卫生或金融等关键领域。

其他考虑因素包括：

许多 LLM 都具有“黑箱”特性，这会阻碍透明度和可解释性
存在滥用及生成有害内容的风险，可能会产生有毒或非法内容
知识产权（IP）和版权方面的担忧
隐私和数据泄露风险

AI 监管

AI 监管对于负责任地开发和监督 LLM 至关重要，它能确保模型运作符合企业组织的价值观和法律要求。随着 AI 法规的快速发展，企业组织必须优先确保遵守数据隐私法（如 GDPR 和 HIPAA）以及新的特定于 AI 的法规，这些法规通常要求对 AI 系统实施严格的风险管理、数据监管、人工监督以及强有力的 AI 系统安全防护。建立明确的问责框架也至关重要，明确由谁负责从开发到部署阶段的 LLM 性能和影响，并制定对关键决策至关重要的“人机回圈”策略。

如果您希望 LLM 基于外部数据返回输出，可采用以下方案：

检索增强生成（RAG）是一种通过整合所选知识源中的数据来扩充 LLM 知识库的架构。这些知识源可以是数据仓库、文本集合或既有文档。
代理式 AI 将自动化技术与 LLM 的创造力相结合。代理 AI 与工具的通信涉及编排，具体的流程或图表根据所使用的框架而有所不同。这种方法可以让 LLM 进行“推理”，并确定回答问题的最佳方式，例如判断能否利用现有信息回答当前问题，或者是否需要进行外部搜索。
模型上下文协议（MCP）是代理式 AI 连接外部来源的桥梁。MCP 作为一种开源协议，不仅能补充 RAG 的功能，还能更进一步实现 AI 应用与外部服务之间的双向连接与通信。

大语言模型（LLM）和小语言模型（SLM）都是经过训练、可以解读人类语言（包括编程语言）的人工智能（AI）系统。二者的主要区别在于：训练它们所用的数据集的规模、用这些数据集训练它们时所采用的流程，以及针对不同用例投入使用后所产生的成本/收益。

进一步了解 LLM 与 SLM 的对比

红帽® AI 是我们专门针对企业组织需求而构建的 AI 产品组合，它筑基于深受客户信赖的红帽解决方案。

红帽 AI 可以帮助企业组织做到以下几点：

快速采用 AI 并进行创新。
拆解交付 AI 解决方案的复杂流程。
随时随地部署。

探索红帽 AI

红帽 AI 提供对第三方模型库的访问权限，这些模型经过验证，可以在我们的平台上高效运行。这一套现成模型可以应用于容量指导规划的场景，帮助您针对特定领域的用例做出明智的决策。

了解有关经红帽 AI 验证的模型的更多信息

采用 LLM 的起点

如果您准备好试用 AI 模型，我们将为 LLM、基础模型、生成式模型和机器学习模型提供支持。

建议从红帽® 企业 Linux® AI 入手，它是我们的基础模型平台，您可以在该平台上针对企业应用开发、测试并运行 Granite 系列 LLM。借助 AI 平台，开发人员可以快速访问单个服务器环境，其中包含 LLM 和 AI 工具。它提供了调整模型和构建生成式 AI 应用所需的一切。

探索红帽企业 Linux AI

扩展阅读

什么是 vLLM？

虚拟大型语言模型（vLLM）是一系列开源代码的集合，可帮助语言模型更高效地执行计算。

什么是可解释 AI？

可解释 AI（XAI）是指一组应用于机器学习（ML）生命周期的技术，旨在使 AI 的输出结果对人类而言更易于理解、更具透明度。

vLLM 如何加快 AI 推理：三个企业级用例

本文将聚焦三个真实标杆案例，拆解知名企业如何成功落地 vLLM。

什么是大语言模型？

LLM 需要许多资源

LLM 和 Transformer

LLM 和深度学习

红帽资源

自动化和效率

生成见解

创造更出色的客户体验

成本

速度

隐私和安全

准确性和偏见

LLM 的优势和局限

AI 使用中的监管和道德考量

AI 监管

采用 LLM 的起点

开启企业 AI 之旅：新手指南

所有红帽产品试用

扩展阅读

什么是 vLLM？

什么是可解释 AI？

vLLM 如何加快 AI 推理：三个企业级用例

AI/ML 相关资源

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links