什么是大语言模型?

复制 URL

大语言模型(LLM)是一种利用机器学习技术来理解和生成人类语言的人工智能模型。对于希望从各个方面增强通信和数据处理并实现自动化的企业和组织而言,LLM 具有极高的价值。 

LLM 使用基于神经网络的模型,通常运用自然语言处理(NLP)技术来处理和计算其输出。NLP 是人工智能(AI)的一个分支领域,专注于使计算机能够理解、解释和生成文本,从而让 LLM 能够执行文本分析、情绪分析、语言翻译和语音识别等任务。

探索红帽 AI

LLM 的完整生命周期涉及多个阶段,具体包括:

数据准备。收集、清理和整理用于训练 LLM 的原始数据。此步骤涉及数据清理(删除重复项和错误)、数据过滤(删除有偏见、淫亵或受版权保护的内容),以及词元化(将文本分解为模型可理解的单元)。 

训练。 LLM 通过训练构建知识体系,从而形成对语言的理解。训练 LLM 的第一个阶段称为“预训练”,涉及一种称为“自监督学习(SSL)”的方法。SSL 是一种无监督学习,需要为机器学习模型提供原始数据集(包含数千亿个单词和短语),供其研究和学习。 

接下来,LLM 将通过微调和对齐继续进行训练。这通常通过以下方法实现:

  • 监督学习: 向模型提供一个数据集,其中所有输入数据都已标有正确答案。模型的任务是学习输入数据与其对应标签之间的关系。监督学习有助于预测未来可能发生的情况。
  • 强化学习:向模型提供一个目标和一组规则,但不提供标注数据。模型的任务是通过与环境交互,并根据自身行为获得“奖励”或“惩罚”来进行学习。强化学习能够帮助提出下一步行动建议。

在训练过程中,计算机从数据中提取信息,创建连接,并“学习”语言。最终形成能够捕捉单词和句子之间复杂关系的模型。 

推理。模型训练完成后,便会进入推理阶段。此时,LLM 可以处理实时数据以进行即时预测。这时,推理服务器就变得至关重要。在正确优化的情况下,推理是生成式 AI 的核心。简而言之,没有推理就没有 AI。因此,支持推理功能的硬件和软件,关系到 AI 战略的成败。

推理服务器在云基础架构中运行,充当硬件和面向用户的应用之间的桥梁。它的作用是通过管理资源请求来优化模型,并确保处理过程尽可能快速完成。 

为什么要关注推理

LLM 需要许多资源

由于 LLM 会不断计算来找到不同语言元素之间的联系,因此需要大量计算资源。它们获取计算能力的一大来源是图形处理单元(GPU)。GPU 是一种专门用于处理复杂并行处理任务的硬件,非常适合需要大量计算的 ML 和深度学习模型,如 LLM。

某些技术可以帮助压缩模型,以在不牺牲准确性的情况下提升速度。如果您资源有限,可以利用 LoRA 和 QLoRA 这两种高效节能的微调技术,它们可以帮助用户优化时间安排并合理利用计算资源。

vLLM 是该领域的领先工具。vLLM 是一种节省内存的推理服务器和引擎,旨在提升混合云环境中大语言模型的运行速度和处理能力。它采用连续批处理、PagedAttention 技术,并结合量化技术,优化 LLM 的内存利用率,同时更高效地利用 GPU。 

了解三家知名企业组织如何利用 vLLM 更高效地实现扩展。

三个 vLLM 真实用例 

vLLM 与 Ollama:不同场景下如何选择

LLM 和 Transformer

GPU 也有助于加速 Transformer 的训练和运行,Transformer 是一种专门为大多数 LLM 所实施的 NLP 任务设计的软件架构。Transformer 是流行的 LLM 基础模型(如 ChatGPT、Claude 和 Gemini)的基本构建块。

Transformer 架构通过有效捕捉数据序列中元素(如句子中的单词)之间的上下文关系和依赖关系,增强机器学习模型的能力。它通过使用自注意力机制(也称为参数)来实现这一点,使模型能够权衡序列中不同元素的重要性,从而加强其理解和性能。参数定义边界,而边界对于理解深度学习算法必须处理的大量数据至关重要。

Transformer 架构涉及数百万或数十亿个参数,这些参数使它能够捕捉复杂的语言模式和细微差别。事实上,“大语言模型”中的“大”字指的就是运行 LLM 所需的大量参数。

LLM 和深度学习

引导 LLM 无监督学习过程的 Transformer 和参数都是一个更宽泛的结构——深度学习——的组成部分。深度学习是用来训练计算机以模拟人脑的算法来处理数据的人工智能技术。深度学习技术也称为深度神经学习或深度神经网络,旨在让计算机通过观察来学习、模仿人类获取知识的方式。 

人脑中有很多相互连接的神经元,当大脑处理信息(或数据)时,这些神经元就负责传递信息。神经元之间通过电信号和化学物质相互作用,并在大脑的不同区域之间传递信息。 

人工神经网络(ANN)是模仿这种生物学现象而构成的,是深度学习所依托的底层架构,然而,ANN 使用的是人工神经元而不是生物神经元,这些人工神经元是由称为节点的软件模块构成的。这些节点使用数学计算(而不是大脑中的化学信号),在模型内进行通信和传递信息。

了解大语言模型(LLM)的运作方式

红帽资源

最新的 LLM 可以理解和使用语言,这在过去是个人电脑所无法企及的。这类机器学习模型可以生成文本,归纳内容,以及进行翻译、重写、归类、分类和分析等。所有这些能力都为人类提供了一个强大的工具集,增强了我们的创造力,并且提高了解决难题的效率。

什么是模型即服务?

LLM 在业务环境中的一些常见用途包括:

自动化和效率

LLM 可以帮助补充或完全承担与语言相关的任务,如客户支持、数据分析和内容生成。这种自动化可以降低运维成本,同时为更具战略性的任务腾出人力资源。 

生成见解

LLM 可以快速扫描大量文本数据,使企业能够通过抓取社交媒体、评论和研究论文等来源,更好地了解市场趋势和客户反馈,这反过来又有助于为业务决策提供信息。

创造更出色的客户体验

LLM 可帮助企业向客户提供高度个性化的内容,加强客户互动并改善用户体验。这可以表现为实施一个聊天机器人来提供全天候客户支持,根据特定用户角色定制营销信息,或者促进语言翻译和跨文化交流。 

探索生成式 AI 用例

虽然在业务环境中使用 LLM 有许多潜在优势,但也有潜在的局限性需要考虑:

成本

LLM 需要大量资源来开发、训练和部署。这就是为什么许多 LLM 都是从基础模型构建而来,后者已经预先训练了 NLP 能力并可提供对语言的基准理解,因此从中可以构建更复杂的 LLM。具有开源许可的 LLM 可免费使用,这使其成为无力自行开发 LLM 的企业组织的理想之选。

速度

LLM 提示词往往复杂且不统一,处理海量数据通常需要大量计算资源与存储支持。llm-d 这类开源 AI 框架让开发人员可借助分布式推理等技术,满足 LLM 等复杂大型推理模型日益增长的需求。

分布式推理和 llm-d 采用模块化架构,将推理任务分配到多台硬件设备上协同处理,助力 AI 工作负载高效运行,显著提升模型推理速度。 

隐私和安全

LLM 需要访问大量信息,有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问,那就必须特别谨慎小心。

进一步了解 AI 安全防护 

准确性和偏见

如果深度学习模型使用的训练数据存在统计学上的偏差,或者不能准确表示总体,则输出就可能存在缺陷。不幸的是,现有的人类偏见通常会传导到人工智能上,从而带来歧视性算法和偏见输出的风险。随着越来越多的企业利用 AI 来提高生产力和性能,至关重要的是制定相关策略,来尽量减少偏见。这首先需要确保在整个设计过程中秉持包容性的理念,并且要更深远地考虑所收集的数据是否代表足够的多样性。

了解 AI 技术如何在企业中发挥作用

LLM 的优势和局限

大语言模型(LLM)在自然语言理解和生成方面具有显著优势,支持创建多样化的内容,通过代码辅助提高开发人员的工作效率,并可执行摘要和翻译等任务。它们在数据分析方面表现卓越,能够提供可扩展的解决方案,并改善个性化体验。然而,主要局限包括:容易出现幻觉和事实错误、缺乏实时知识,以及复杂推理能力不足。此外,LLM 还存在固有偏见、计算成本高昂、“黑箱”问题(缺乏透明度)和数据隐私/安全风险等方面的挑战,以及潜在的不确定性行为和过度依赖。

AI 使用中的监管和道德考量

对于使用 LLM 的企业组织而言,监管和道德考量是一项重大挑战,主要是因为它们具有强大的功能和潜在的危害性。从伦理角度来看,一个核心问题是偏见,因为大语言模型(LLM)从海量数据集中学习,这些数据集可能反映并会放大社会偏见,从而导致歧视性输出。 另一个问题是幻觉。LLM 能够以令人信服的方式呈现虚假信息;道德部署要求建立相应机制,通过免责声明和事实准确性检查等来最大限度地减少虚假信息,尤其是在医疗卫生或金融等关键领域。

其他考虑因素包括:

  • 许多 LLM 都具有“黑箱”特性,这会阻碍透明度和可解释性
  • 存在滥用及生成有害内容的风险,可能会产生有毒或非法内容
  • 知识产权(IP)和版权方面的担忧
  • 隐私和数据泄露风险

AI 监管

AI 监管对于负责任地开发和监督 LLM 至关重要,它能确保模型运作符合企业组织的价值观和法律要求。随着 AI 法规的快速发展,企业组织必须优先确保遵守数据隐私法(如 GDPR 和 HIPAA)以及新的特定于 AI 的法规,这些法规通常要求对 AI 系统实施严格的风险管理、数据监管、人工监督以及强有力的 AI 系统安全防护。建立明确的问责框架也至关重要,明确由谁负责从开发到部署阶段的 LLM 性能和影响,并制定对关键决策至关重要的“人机回圈”策略。

如果您希望 LLM 基于外部数据返回输出,可采用以下方案: 

  • 检索增强生成(RAG)是一种通过整合所选知识源中的数据来扩充 LLM 知识库的架构。这些知识源可包括数据仓库、文本集合或既有文档。
  • 代理式 AI 将自动化技术与 LLM 的创造力相结合。代理 AI 与工具的通信涉及编排,具体的流程或图表根据所使用的框架而有所不同。这种方法可以让 LLM 进行“推理”,并确定回答问题的最佳方式,例如判断能否利用现有信息回答当前问题,或者是否需要进行外部搜索。
  • 模型上下文协议(MCP)是代理式 AI 与外部来源建立连接的一种方式。MCP 是一种开源协议,它不仅能补充 RAG 的功能,还能更进一步,实现 AI 应用与外部服务之间的双向连接与通信。 

大语言模型(LLM)和小语言模型(SLM)都是经过训练、可以解读人类语言(包括编程语言)的人工智能(AI)系统。二者的主要区别在于:训练它们所用的数据集的规模、用这些数据集训练它们时所采用的流程,以及针对不同用例投入使用后所产生的成本/收益。

进一步了解 LLM 与 SLM 的对比

红帽 AI 是一个包含各种产品与服务的平台,能够在您企业 AI 旅程的任何阶段提供帮助,无论您是刚刚起步,还是准备进行扩展。针对您企业独特的用例,它既能支持生成式 AI,也能支持预测性 AI 相关工作。

借助红帽 AI,您就可以访问红帽® AI 推理服务器,在混合云上优化模型推理,从而实现更快、更具成本效益的部署。推理服务器由 vLLM 提供支持,可最大限度提高 GPU 利用率,加快响应速度。

了解有关红帽 AI 推理服务器的更多信息

红帽 AI 推理服务器还包含红帽 AI 存储库,这是一个经过第三方验证和优化的模型集合,既能保证模型选择的灵活性,又能促进跨团队的一致性。通过接入第三方模型存储库,企业能够显著缩短推向市场所需的时间,并降低 AI 成功落地的成本门槛。

了解有关经红帽 AI 验证的模型的更多信息

博客

Artificial Intelligence (AI)

See how our platforms free customers to run AI workloads and models anywhere

自适应企业:AI 就绪,从容应对颠覆性挑战

这本由红帽首席运营官兼首席战略官 Michael Ferris 撰写的电子书,介绍了当今 IT 领导者面临的 AI 变革和技术颠覆挑战。

扩展阅读

What is Mixture of Experts (MoE)?

混合专家模型(MoE)是一种模型架构技术,通过将任务路由至模型中最适配的模块,来提升 AI 推理速度。

What is AgentOps?

AgentOps(代理运维)是一套工具框架,用于实时监控 AI 在制定决策时的“大脑”运行情况。

What is sovereign AI?

主权 AI 意味着拥有 AI 技术,将数据保留在本地,并确保您的系统能够体现您的独特价值观和法律要求。

AI/ML 相关资源