什么是大语言模型?

复制 URL

大语言模型(LLM)是一种利用机器学习技术来理解和生成人类语言的人工智能模型。对于希望从各个方面增强通信和数据处理并实现自动化的企业和组织而言,LLM 具有极高的价值。 

LLM 使用基于神经网络的模型,通常运用自然语言处理(NLP)技术来处理和计算其输出。NLP 是人工智能(AI)的一个分支领域,专注于使计算机能够理解、解释和生成文本,从而让 LLM 能够执行文本分析、情绪分析、语言翻译和语音识别等任务。

探索红帽 AI

LLM 使用一种被称为无监督学习的方法来理解语言。这个过程要向机器学习模型提供大规模的数据集,其中包含数百亿个单词和短语,供模型学习和模仿。这种无监督的预训练学习阶段是开发 LLM(如 ChatGPT(Generative Pre-Trained Transformer)和 BERT(Bidirectional Encoder Representations from Transformers))的基本步骤。 

换言之,即使没有明确的人类指令,计算机也能从数据中提取信息,建立联系并“学习”语言。这称为 AI 推理。模型通过学习语言中单词如何组合在一起的模式来理解语法和结构,之后,它就可以根据概率预测句子应采用的结构。最终就能形成一个能够捕捉单词和句子之间复杂关系的模型。 

LMM 需要许多资源

由于 LLM 会不断计算来找到不同语言元素之间的联系,因此需要大量计算资源。它们获取计算能力的一大来源是图形处理单元(GPU)。GPU 是一种专门用于处理复杂并行处理任务的硬件,非常适合需要大量计算的 ML 和深度学习模型,如 LLM。

如果您资源有限,可以利用 LoRA 和 QLoRA 这两种高效节能的微调技术,它们可以帮助用户优化时间安排并合理利用计算资源。

某些技术可以帮助压缩模型,以在不牺牲准确性的情况下提升速度。

LLM 和 Transformer

GPU 也有助于加速 Transformer 的训练和运行,Transformer 是一种专门为大多数 LLM 所实施的 NLP 任务设计的软件架构。Transformer 是流行的 LLM 基础模型(如 ChatGPT、Claude 和 Gemini)的基本构建块。

Transformer 架构通过有效捕捉数据序列中元素(如句子中的单词)之间的上下文关系和依赖关系,增强机器学习模型的能力。它通过使用自注意力机制(也称为参数)来实现这一点,使模型能够权衡序列中不同元素的重要性,从而加强其理解和性能。参数定义边界,而边界对于理解深度学习算法必须处理的大量数据至关重要。

Transformer 架构涉及数百万或数十亿个参数,这些参数使它能够捕捉复杂的语言模式和细微差别。事实上,“大语言模型”中的“大”字指的就是运行 LLM 所需的大量参数。

LLM 和深度学习

引导 LLM 无监督学习过程的 Transformer 和参数都是一个更宽泛的结构——深度学习——的组成部分。深度学习是用来训练计算机以模拟人脑的算法来处理数据的人工智能技术。深度学习技术也称为深度神经学习或深度神经网络,旨在让计算机通过观察来学习、模仿人类获取知识的方式。 

人脑中有很多相互连接的神经元,当大脑处理信息(或数据)时,这些神经元就负责传递信息。神经元之间通过电信号和化学物质相互作用,并在大脑的不同区域之间传递信息。 

人工神经网络(ANN)是模仿这种生物学现象而构成的,是深度学习所依托的底层架构,然而,ANN 使用的是人工神经元而不是生物神经元,这些人工神经元是由称为节点的软件模块构成的。这些节点使用数学计算(而不是大脑中的化学信号),在模型内进行通信和传递信息。

了解大语言模型(LLM)的运作方式

红帽资源

最新的 LLM 可以理解和使用语言,这在过去是个人电脑所无法企及的。这类机器学习模型可以生成文本,归纳内容,以及进行翻译、重写、归类、分类和分析等。所有这些能力都为人类提供了一个强大的工具集,增强了我们的创造力,并且提高了解决难题的效率。

什么是模型即服务?

LLM 在业务环境中的一些常见用途包括:

自动化和效率

LLM 可以帮助补充或完全承担与语言相关的任务,如客户支持、数据分析和内容生成。这种自动化可以降低运维成本,同时为更具战略性的任务腾出人力资源。 

生成见解

LLM 可以快速扫描大量文本数据,使企业能够通过抓取社交媒体、评论和研究论文等来源,更好地了解市场趋势和客户反馈,这反过来又有助于为业务决策提供信息。

创造更出色的客户体验

LLM 可帮助企业向客户提供高度个性化的内容,加强客户互动并改善用户体验。这可以表现为实施一个聊天机器人来提供全天候客户支持,根据特定用户角色定制营销信息,或者促进语言翻译和跨文化交流。 

探索生成式 AI 用例

虽然在业务环境中使用 LLM 有许多潜在优势,但也有潜在的局限性需要考虑:

成本

LLM 需要大量资源来开发、训练和部署。这就是为什么许多 LLM 都是从基础模型构建而来,后者已经预先训练了 NLP 能力并可提供对语言的基准理解,因此从中可以构建更复杂的 LLM。具有开源许可的 LLM 可免费使用,这使其成为无力自行开发 LLM 的企业组织的理想之选。

隐私和安全

LLM 需要访问大量信息,有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问,那就必须特别谨慎小心。

了解有关 AI 安全防护的更多信息

准确性和偏见

如果深度学习模型使用的训练数据存在统计学上的偏差,或者不能准确表示总体,则输出就可能存在缺陷。不幸的是,现有的人类偏见通常会传导到人工智能上,从而带来歧视性算法和偏见输出的风险。随着越来越多的企业组织利用 AI 来提高生产力和性能,至关重要的是制定相关策略,来尽量减少偏见。这首先需要确保在整个设计过程中秉持包容性的理念,并且要更深远地考虑所收集的数据是否代表足够的多样性。

了解 AI 如何助力企业发展

LLM 的优势和局限

大语言模型(LLM)在自然语言理解和生成方面具有显著优势,支持创建多样化的内容,通过代码辅助提高开发人员的工作效率,并可执行摘要和翻译等任务。它们在数据分析方面表现卓越,能够提供可扩展的解决方案,并改善个性化体验。然而,主要局限包括:容易出现幻觉和事实错误、缺乏实时知识,以及复杂推理能力不足。此外,LLM 还存在固有偏见、计算成本高昂、“黑匣子”问题(缺乏透明度)和数据隐私/安全风险等方面的挑战,以及潜在的不确定性行为和过度依赖。

AI 使用中的监管和道德考量

对于使用 LLM 的企业组织而言,监管和道德考量是一项重大挑战,主要是因为它们具有强大的功能和潜在的危害性。从伦理角度来看,一个核心问题是偏见,因为大语言模型(LLM)从海量数据集中学习,这些数据集可能反映并会放大社会偏见,从而导致歧视性输出。 另一个问题是幻觉。LLM 能够以令人信服的方式呈现虚假信息;道德部署要求建立相应机制,通过免责声明和事实准确性检查等来最大限度地减少虚假信息,尤其是在医疗卫生或金融等关键领域。

其他考虑因素包括:

  • 许多 LLM 都具有“黑匣子”特性,这会阻碍透明度和可说明性
  • 存在滥用及生成有害内容的风险,可能会产生有毒或非法内容
  • 知识产权(IP)和版权方面的担忧
  • 隐私和数据泄露风险

AI 监管

AI 监管对于负责任地开发和监督 LLM 至关重要,它能确保模型运作符合企业组织的价值观和法律要求。随着 AI 法规的快速发展,企业组织必须优先确保遵守数据隐私法(如 GDPR 和 HIPAA)以及新的特定于 AI 的法规,这些法规通常要求对 AI 系统实施严格的风险管理、数据监管、人工监督以及强有力的 AI 系统安全防护。建立明确的问责框架也至关重要,明确由谁负责从开发到部署阶段的 LLM 性能和影响,并制定对关键决策至关重要的“人机回圈”策略。

未来 LLM 开发工作将优先关注效率提升、专业化和增强功能。这包括推动“绿色 AI”计划,通过量化和专家混合(MoE)等技术,创建更小且更可持续的模型。LLM 也在向多模态功能方向扩展,能够理解并生成文本、图像和音频内容。未来模型将具备更强的推理能力和代理功能,能够进行规划、执行任务、使用工具以及对输出进行自我验证。人们越来越关注利用专有数据进行微调的特定领域 LLM,以及通过检索增强生成(RAG)生成更准确、可引用的答案最后,我们不断努力确保安全性、一致性和消除偏见,旨在构建更透明、更值得信赖的 AI 系统。

大语言模型(LLM)和小语言模型(SLM)都是经过训练、可以解读人类语言(包括编程语言)的人工智能(AI)系统。二者的主要区别在于:训练它们所用的数据集的规模、用这些数据集训练它们时所采用的流程,以及针对不同用例投入使用后所产生的成本/收益。

详细阅读:《LLM 与 SLM:语言模型对比》

红帽® AI 是我们专门针对企业组织需求而构建的 AI 产品组合,它筑基于深受客户信赖的红帽解决方案。 

红帽 AI 可以帮助企业组织做到以下几点:

  • 快速采用 AI 并进行创新。
  • 拆解交付 AI 解决方案的复杂流程。
  • 随时随地部署。

探索红帽 AI 

红帽 AI 提供对第三方模型库的访问权限,这些模型经过验证,可以在我们的平台上高效运行。这一套现成模型可以应用于容量指导规划的场景,帮助您针对特定领域的用例做出明智的决策。 

了解有关经红帽 AI 验证的模型的更多信息

采用 LLM 的起点

如果您准备好试用 AI 模型,我们将为 LLM、基础模型、生成式模型和机器学习模型提供支持。

红帽® 企业 Linux® AI 是良好的起点:红帽企业 Linux AI 是我们的基础模型平台,可帮助您针对企业应用开发、测试并运行 Granite 系列 LLM。借助 AI 平台,开发人员可以快速访问单个服务器环境,其中包含 LLM 和 AI 工具。它提供了调整模型和构建生成式 AI 应用所需的一切。 

探索红帽企业 Linux AI 

资源

开启企业 AI 之旅:新手指南

此新手指南介绍了红帽 OpenShift AI 和红帽企业 Linux AI 如何加快您的 AI 采用之旅。

所有红帽产品试用

我们的免费试用服务可让您亲身体验红帽的产品功能,为获得认证做好准备,或评估某个产品是否适合您的企业组织。

扩展阅读

什么是分布式推理?

分布式推理通过将推理任务分配给一组互联设备,从而使 AI 模型更高效地处理工作负载。

什么是模型上下文协议(MCP)?

了解模型上下文协议(MCP)如何将 AI 应用连接到外部数据源,助您构建更加智能的工作流。

AIOps 详解

AIOps 即“面向 IT 运维的 AI”(AI for IT operations),是一种利用机器学习及其他先进 AI 技术来实现 IT 运维自动化的方法。

AI/ML 相关资源

相关文章