一段经历可以在您的脑海中埋下一颗种子,最终孕育出更宏大的想法。我最近去了日本,这是一个美丽的国家,有着丰富而明确的文化,这次旅行让我意识到语言和文化是多么紧密地交织在一起。语言结构既反映也影响着人们感知世界的方式。例如,有些文化较为随意,而存在森严社会等级的文化往往较为正式。这种差异既体现在语法结构中,也渗透在人们相互问候的方式、提问的形式以及对话的节奏里。这段经历让我开始思考:在打造新一代 AI 时,该如何训练它掌握所有文化的语言?

全球 AI

我们经常听说 AI 是一种具有革命意义的全球性工具,是一项造福全人类的技术。但是,如果 AI 从我们的集体数据中学习,那么它真正习得的是谁的文化?构建通用智能系统的愿景固然强大,但却掩盖了一个关键问题:当今最强大的 AI 模型并非文化中立。它们直接反映了训练数据的特性,而这些数据绝大多数都以英语为中心,带有西方文化倾向。

对于这种带有西方文化倾向的模型训练模式而言,“AI 主权”的概念显得尤为重要。这不仅关乎能否获得技术或硬件,还涉及构建能够体现某个国家或社区独特语言、价值观和文化的 AI。我们相信,实现这一目标的关键在于开源 AI 领域。

从数据看 AI 的语言鸿沟

数字主权正从一个抽象概念迅速演变为至关重要的现实问题,在 AI 领域尤为如此。数据印证了这一转变:欧盟启动 InvestAI 计划,旨在筹集 2,000 亿欧元用于 AI 开发,其中 200 亿专门用于建设 AI“超级工厂”;企业私人投资从 2023 年到 2024 年增加了 44.5%,各国政府和私营部门纷纷投入数十亿资金开发本国 AI 生态系统,以保障其数字化未来。随着 AI 模型日益精密和普及,模型训练和运营所依托数据的存储位置和控制权对国家安全、经济竞争力和道德治理具有重大影响。这种对数据的控制权不仅是理论层面的问题,而且是切实存在的、具有明确影响的问题。

我们通常听到的基础模型主要基于英语构建而成。以 Meta 的 Llama 2 为例,其预训练数据中英语内容占比高达 89.7%。即使到了 Llama 3.1在具有 15 万亿个词元的数据集内,非英语内容仅占 8%。与此类似,OpenAI 的 GPT-3 训练数据集内的英语内容占比也达到约 93%。这些统计数据取自模型自身的数据表,所揭示的现象发人深省。

作为训练数据主要来源的网络本身同样存在倾斜。 Common Crawl 数据集是用于训练许多模型的互联网快照,它就是绝佳例证。在最新版本中,46% 的文档是英语内容,位列其后的德语和俄语各自占比不到 6%。相比之下,根据美国中央情报局 2022 年《世界概况》中的数据,全球使用英语的人口只有不到 19%。 

这种数据失衡带来的后果远不止简单的语言翻译。这还会塑造模型的文化倾向。 研究表明,大语言模型(LLM)往往与西方、受教育、工业化、富裕和民主(WEIRD)社会体系的文化价值观相契合,其根本原因在于模型基于此类社会的数据训练而成。

基于语言训练 AI 模型能够有力地体现和再现文化模式,因为语言直接承载着特定文化的价值观、信仰与世界观。通过分析来自特定语言和文化群体的大量文本,AI 将逐步学会模仿相应文化的细微差别。

老爸笑话相当复杂

训练 AI 模型不仅需要理解词汇和语法,还要掌握语言的实际运用。这意味着,除了字面意思,还要领会对话中蕴含的讽刺、反讽、幽默以及所有社交礼仪。一个简短的“老爸笑话”中可以体现所有这些要素。  例如,我让某个公共 GPT 模型讲个“老爸笑话”,它提供了以下内容: 

我很害怕日历。因为日历上都标了数字。

这个笑话对于英语使用者来说可能很好笑,但对于非英语母语者来说可能会很难理解,因为笑点正是西方文化中常见的习语“days are numbered”(时日无多)。模型必须要处理海量文学作品、历史文献、社交媒体互动甚至俗语表达,才有可能真正领会内容中的讽刺和幽默(有时会出现在老爸笑话中)。通过这种方式,AI 模型可以开始模仿反复出现的主题、主导叙述以及塑造文化身份的底层认知框架。

开辟开源新路径

社区无需从头开始构建自己的模型。开源的优势在于它提供了另一种路径。社区可以选择功能强大的开源“基本模型”(例如 Llama),并对其进行微调。这意味着,他们可以使用特定于自己文化的数据进一步训练模型,让模型掌握特定语言、历史和法律框架的细微差别。

文化微调不只是停留在理论层面,当下已有许多实践正在展开。下面是一些示例:

  • 通过 Masakhane 推动泛非自然语言处理(NLP)发展:Masakhane 在祖鲁语中寓意“我们共同建设”,是一个草根性质的泛非研究者社区。他们正是社区自主解决问题的典范:创建了首个涵盖 10 种非洲语言的命名实体识别(NER)数据集(MasakhaNER),并为 30 多种非洲语言构建了翻译模型。
  • 保护土著语言:AI 的应用延伸到了濒危语言保护领域。例如,加拿大国家研究委员会(NRC)的土著语言技术项目,以及 IBM 在巴西开展的语言研究工作(例如姆比亚瓜拉尼语)都是运用这项技术助力文化传承的典范案例。

AI 主权方面的加紧布局

在推进技术工作的同时,一场围绕 AI 主权概念的广泛政治运动正在兴起。AI 主权是指一个国家掌控自己的 AI 开发进程,使其不受其他国家(或地区)的影响而保持独立自主。主权 AI 意味着在国家边界内控制敏感数据,保持关键系统的战略独立性,开发反映本地文化且符合国家价值观的 AI,促进国内经济发展,并建立相关框架和法规,例如欧盟的《欧盟 AI 法案》

这场法律和政治运动推动了 Masakhane 等社区的工作,让 AI 主权不仅成为明智举措,更成为许多国家/地区的国家优先事项。它揭示了“为什么”要全力收集本地数据集以及构建主权 AI 能力。毕竟,当一个国家的所有数据都通过无法理解其文化背景的外国模型处理时,AI 主权便无从谈起。对开源模型进行本地微调正是应对这一政策需求的关键路径。

多语言 AI 的未来

AI 的默认发展路径可能是文化同质化,也就是说,当模型仅基于有限的人类经验进行训练时,全球文化的细微差别将被逐渐抹平。通过使用开源工具和模型,专注投入的社区正在构建更加公平、更具多样化的 AI 生态系统。

开源原则具有很强的影响力,倡导以社区为导向的 AI 开发路径是非常重要的。当我们秉持透明、协作和共同发展的理念时,开源便有助于加速创新。这可以汇聚多元视角与集体智慧,进而共同塑造 AI 的未来。

例如,红帽参与了 InstructLabvLLM 等项目,这让所有人(不仅仅是数据科学家)都能为 LLM 贡献自己的知识和专业技能。这种协作方法有助于构建能够反映更广泛社会需求和文化规范的 AI 技术。它既能减少权力过度集中在少数人手中的情况,又能让前沿技术成果惠及更多人。 

更多模型、更少偏见

模型偏见通常源于训练模型所用的数据。如果模型基于不具有多样性或代表性、无法反映真实世界的数据集进行训练,那么它必然会反映并放大这些固有的偏见。 红帽 OpenShift AI 可让开发人员从各种 AI 模型中进行选择,从而帮助解决偏见问题。这种灵活性意味着不会强制采用一个可能存在偏见的模型,用户可以根据自己的特定使用场景选择最合适的模型,也可以选择基于更加多样化的数据集训练的模型。OpenShift AI 的开源特性也提高了透明度,吸引了各种背景的贡献者加入社区,从而进一步帮助减少这些固有的偏见。 

以社区为导向的方法不仅有助于加速技术进步,还能推动 AI 开发的民主化,让更多个人和企业组织能够参与这些变革性技术的开发,并从中受益。AI 的未来不一定是单调的单一文化。正因世界各地开源社区的不懈努力,我们终将共同构建充满活力的生态系统。


准备好倡导更加公平、更具多样化的 AI 生态系统了吗?欢迎参加 2025 年全球 AI 峰会,探索开源如何塑造 AI 主权的未来。进一步了解红帽对开放式 AI 的承诺,包括 InstructLab 和红帽 AI 推理服务器等项目,探索如何为实现 AI 开发民主化贡献自己的力量。 点击此处进一步了解活动

资源

开启企业 AI 之旅:新手指南

此新手指南介绍了红帽 OpenShift AI 和红帽企业 Linux AI 如何加快您的 AI 采用之旅。

关于作者

Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.

UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Virtualization icon

虚拟化

适用于您的本地或跨云工作负载的企业虚拟化的未来