快速跳转

什么是大语言模型?

复制 URL

大语言模型(LLM)是一种利用机器学习技术来理解和生成人类语言的人工智能模型。对于希望从各个方面增强通信和数据处理并实现自动化的企业和机构而言,LLM 具有极高的价值。 

LLM 使用基于神经网络的模型,通常运用自然语言处理(NLP)技术来处理和计算其输出。NLP 是人工智能(AI)的一个分支领域,专注于使计算机能够理解、解释和生成文本,从而让 LLM 能够执行文本分析、情绪分析、语言翻译和语音识别等任务。

探索红帽 AI 产品

LLM 使用一种被称为无监督学习的方法来理解语言。这个过程要向机器学习模型提供大规模的数据集,其中包含数百亿个单词和短语,供模型学习和模仿。这种无监督的预训练学习阶段是开发 LLM(如 GPT-3(Generative Pre-trained Transformer )和 BERT(Bidirectional Encoder Representations from Transformers)的基本步骤。 

换言之,即使没有明确的人类指令,计算机也能从数据中提取信息,建立联系并“学习”语言。模型通过学习语言中单词如何组合在一起的模式来理解语法和结构,之后,它就可以根据概率预测句子应采用的结构。最终就能形成一个能够捕捉单词和句子之间复杂关系的模型。 

LMM 需要许多资源

由于 LLM 会不断计算来找到不同语言元素之间的联系,因此需要大量计算资源。它们获取计算能力的一大来源是图形处理单元(GPU)。GPU 是一种专门用于处理复杂并行处理任务的硬件,非常适合需要大量计算的 ML 和深度学习模型,如 LLM。

LLM 和 Transformer

GPU 也有助于加速 Transformer 的训练和运行,Transformer 是一种专门为大多数 LLM 所实施的 NLP 任务设计的软件架构。Transformer 是流行的 LLM 基础模型(如 ChatGPT 和 BERT)的基本构建块。

Transformer 架构通过有效捕捉数据序列中元素(如句子中的单词)之间的上下文关系和依赖关系,增强机器学习模型的能力。它通过使用自注意力机制(也称为参数)来实现这一点,使模型能够权衡序列中不同元素的重要性,从而加强其理解和性能。各个参数定义了边界(即自注意机制中的权重和关注程度),而边界对于理解深度学习算法必须处理的大量数据至关重要。

Transformer 架构涉及数百万或数十亿个参数,这些参数使它能够捕捉复杂的语言模式和细微差别。事实上,“大语言模型”中的“大”字指的就是运行 LLM 所需的大量参数。

LLM 和深度学习

引导 LLM 无监督学习过程的 Transformer 和参数都是一个更宽泛的结构——深度学习——的组成部分。深度学习是用来训练计算机以模拟人脑的算法来处理数据的人工智能技术。深度学习技术也称为深度神经学习或深度神经网络,旨在让计算机通过观察来学习、模仿人类获取知识的方式。 

人脑中有很多相互连接的神经元,当大脑处理信息(或数据)时,这些神经元就负责传递信息。神经元之间通过电信号和化学物质相互作用,并在大脑的不同区域之间传递信息。 

人工神经网络(ANN)是模仿这种生物学现象而构成的,是深度学习所依托的底层架构,然而,ANN 使用的是人工神经元而不是生物神经元,这些人工神经元是由称为节点的软件模块构成的。这些节点使用数学计算(而不是大脑中的化学信号),在模型内进行通信和传递信息。

最新的 LLM 可以理解和使用语言,这在过去是个人电脑所无法企及的。这类机器学习模型可以生成文本,归纳内容,以及进行翻译、重写、归类、分类和分析等。所有这些能力都为人类提供了一个强大的工具集,增强了我们的创造力,并且提高了解决难题的效率。

LLM 在业务环境中的一些常见用途包括:

自动化和效率
LLM 可以帮助补充或完全承担与语言相关的任务,如客户支持、数据分析和内容生成。这种自动化可以降低运维成本,同时为更具战略性的任务腾出人力资源。 

生成见解
LLM 可以快速扫描大量文本数据,使企业能够通过抓取社交媒体、评论和研究论文等来源,更好地了解市场趋势和客户反馈,这反过来又有助于为业务决策提供信息。

创造更出色的客户体验
LLM 可帮助企业向客户提供高度个性化的内容,加强客户互动并改善用户体验。这可以表现为实施一个聊天机器人来提供全天候客户支持,根据特定用户角色定制营销信息,或者促进语言翻译和跨文化交流。 

LLM 的挑战和局限

虽然在业务环境中使用 LLM 有许多潜在优势,但也有潜在的局限性需要考虑:

  • 成本
    LLM 需要大量资源来开发、训练和部署。这就是为什么许多 LLM 都是从基础模型构建而来,后者已经预先训练了 NLP 能力并可提供对语言的基准理解,因此从中可以构建更复杂的 LLM。
  • 隐私和安全
    LLM 需要访问大量信息,有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问,那就必须特别谨慎小心。
  • 准确性和偏见
    如果深度学习模型使用的训练数据存在统计学上的偏差,或者不能准确表示总体,则输出就可能存在缺陷。不幸的是,现有的人类偏见通常会传导到人工智能上,从而带来歧视性算法和偏见输出的风险。随着越来越多的企业利用人工智能来提高生产力和性能,至关重要的是制定相关策略,来尽量减少偏见。这要一开始就有包容性的设计,并且要更深远地考虑对所收集的数据是否代表足够的多样性。 

 

从医疗卫生到金融服务,从电信通讯到汽车制造,各行各业都涌现了具有颠覆性的 AI/ML 用例。我们的开源平台和强大的合作伙伴生态系统可为面向 AI 驱动的智能应用创建、部署和管理 ML 及深度学习模型提供完整的解决方案。

作为混合云和多云容器开发平台的领导者,红帽® OpenShift® 支持数据科学家和软件开发人员之间开展协作。它可加速跨混合云环境(从数据中心到网络边缘再到多个云)推出智能应用。

借助红帽 OpenShift 数据科学,企业可以访问所需的资源,来快速开发、训练、测试和部署容器化机器学习模型,不必费心去设计和部署 Kubernetes 基础架构。 

红帽 OpenShift AI 拥有成熟可靠的基础,让客户能够更加可靠地进行扩展,借助本地或云服务使用 OpenShift 的原生 GPU 加速功能来训练基础模型。OpenShift AI 也负责为 IBM watsonx 和 Ansible® Lightspeed 提供支撑。 

Ansible Lightspeed 加 IBM watsonx Code Assistant 是一种生成式 AI 服务,可协助开发人员更加高效地创建 Ansible 内容。它可读取用户输入的简单英语,再通过与 IBM watsonx 基础模型交互,为自动化任务生成代码建议,然后用于创建 Ansible Playbook。在红帽 OpenShift 上部署 Ansible Lightspeed,可通过智能自动化和编排来缓解 Kubernetes 中的艰巨任务。 

 

电子书:在红帽 OpenShift 上运行 AI/ML

扩展阅读

文章

什么是红帽 OpenShift Operator?

红帽 OpenShift Operator 自动执行 Kubernetes 原生应用实例的创建、配置和管理。

文章

为什么选择红帽 OpenShift Serverless?

红帽 OpenShift Serverless 可扩展 Kubernetes,以部署和管理无服务器工作负载。

文章

为什么选择红帽 OpenShift 服务网格?

使用红帽 OpenShift 服务网格,您能够以统一的方式连接、管理和查看基于微服务的应用。

AWS 上的红帽 OpenShift 服务的更多信息

产品

Red Hat OpenShift on Amazon Web Services (AWS) logo

一个在原生 AWS 环境中完全托管的统包式应用平台。

一个企业级应用平台,包含一系列统一经过测试的服务,可基于您选择的基础架构将应用推向市场。

资源

互动讲解

查看控制台中访问新创建的 ROSA 集群的情况

学习中心

按每一环节优先任务整理的资料和工具

电子书

开启应用转型征途:携手 AWS 上的红帽 OpenShift 服务

培训

免费培训课程

AWS 上的红帽 OpenShift 服务(ROSA)简介