経験によって蒔かれた種が、さらに大きなアイデアへと育つことがあります。先日、豊かで独特の文化を持つすばらしい国、日本を訪問しました。その際、言語と文化がどれほど深くつながっているかに気づかされました。言語構造は、人々が世界をどのように認識するかを反映し、またその認識に影響を与えます。たとえば、それほど形式張らない文化もあれば、社会的階層が確立された人々の文化はより格式高いものになります。それは文法や、挨拶の仕方、質問の形、会話のリズムにまでも表れます。この経験がきっかけとなり、次のような疑問が芽生えました。それは、新世代の AI を構築するにあたり、あらゆる文化の言語を話せるように AI をトレーニングするにはどうすればよいのか、ということです。
グローバル AI
AI は革新的なグローバルツールであり、全人類のためのテクノロジーであるということをよく耳にします。しかし、AI が私たちの集合的なデータから学習しているのなら、真に学習しているのはどの文化でしょうか。普遍的なインテリジェント・システムの将来性は極めて高いものですが、その影には、今日の最も強力な AI モデルは文化的に中立ではないという重大な問題が隠されています。AI はトレーニングデータを直接反映したものであり、そのデータはほとんどが英語中心で西洋に偏っています。
「AI 主権」の概念は、この西洋に偏ったモデルトレーニングにとりわけ関連性を持つようになりました。この概念は、単にテクノロジーやハードウェアへのアクセスを持つことだけではなく、国家またはコミュニティ独自の言語、価値観、文化を反映できる AI を構築することを意味します。これを達成する鍵は、オープンソース AI の世界にあると私たちは考えています。
数字で見る AI の言語ギャップ
デジタル主権は、とくに AI のコンテキストにおいて、抽象的な概念から現実の問題へと急速に進化しています。この変化を裏付ける数字があります。EU において InvestAI が立ち上げられ、AI 開発に 2,000 億ユーロの資金が投入され、そのうちの 200 億ユーロは AI の「ギガファクトリー」の作成に投資されています。また、企業の民間投資は 2023 年から 2024 年にかけて 44.5% 増加しており、世界中の政府機関と民間企業の両方が、デジタル化の未来に対応するために、自国および自社内の AI エコシステムの開発に数十億ドル規模の投資を行っています。AI モデルが高度化し続け、その範囲が拡大し続ける中で、そのトレーニングと運用に使用されるデータの場所と制御は、国家の安全保障、経済的競争力、倫理的ガバナンスに大きな影響を与えています。このデータ制御は単なる理論上の問題ではなく、明確な影響を伴う具体的な問題です。
一般的に耳にする基盤モデルは、主に英語をベースとしています。たとえば、Meta の Llama 2 の事前トレーニングデータの 89.7% は英語でした。Llama 3.1 でさえ、15 兆トークンデータセットのうち、英語以外はわずか 8% でした。同様に、OpenAI の GPT-3 は、約 93% が英語のデータセットでトレーニングされました。モデル自体のデータシートから抽出されたこれらの統計情報は、極めて明白な結果を示しています。
同様に、トレーニングデータの主要なソースである Web 自体にも偏りがあります。 Common Crawl データセットは、多くのモデルのトレーニングに使用されるインターネットのスナップショットであり、その代表例です。最近のバージョンでは、ドキュメントの 46% が英語で記述されており、次に多い言語であるドイツ語とロシア語はそれぞれ 6% 未満でした。それに対して、「CIA World Factbook 2022」によると、英語を話せるのは世界中の人口のわずか 19% 弱です。
この不均衡による影響は、単純な言語翻訳だけにとどまりません。モデルの文化的整合性に影響を与えているのです。 こちらの調査によると、大規模言語モデル (LLM) は、西洋の教育水準が高い、工業化された豊かで民主的 (WEIRD) な社会の文化的価値観と一致する傾向があります。トレーニングに使用されるデータソースがそこから得られるからです。
言語には、文化の価値観、信念、世界観が直接反映されているので、言語に基づいて AI モデルをトレーニングすることは、文化的パターンを表現および再現するための強力な方法になり得ます。特定の言語的および文化的なグループからの膨大な量のテキストを分析することで、AI はその文化のニュアンスを模倣することを学習します。
駄洒落は複雑
AI モデルのトレーニングには、語彙や文法を理解するだけでなく、言語の実践的な適用も含まれます。つまり、文字どおりの言葉にとどまらず、会話に埋め込まれた皮肉や嫌味、ユーモア、そしてあらゆる社会的マナーが含まれるのです。このことはすべて、短い「駄洒落」に表されていることがわかります。 たとえば、公開されている GPT モデルに「駄洒落」を言うよう求めたところ、次の結果が得られました。
I'm afraid for the calendar.Its days are numbered. (カレンダーのことが心配です。残りの日数が限られているから)
この駄洒落は英語では笑えるかもしれませんが、ここで笑いのポイントとなる箇所は西洋文化でよく見られるイディオム (慣用句) であるため、英語のネイティブ話者でない人にはわかりにくい可能性があります。皮肉やユーモア (駄洒落に見られることもある) は、文学、歴史文書、ソーシャルメディアでのやりとり、さらには口語的表現など、幅広いコーパスを処理することでしか実現できません。そうすることで AI モデルは、繰り返されるテーマ、広く知られている物語、基盤となる認知フレームワークなど、文化のアイデンティティを形成するものを模倣し始めることができます。
オープンソースによる新しい道筋
コミュニティが独自のモデルをゼロから構築する必要はありません。オープンソースの長所は、別の道筋を提供してくれることです。強力なオープンソースの「基本モデル」(Llama など) を使用して、それをファインチューニングすることができます。つまり、文化的に固有なデータでモデルをさらにトレーニングし、その言語や歴史、法的なフレームワークのニュアンスを学習させることができます。
文化のファインチューニングは単なる理論ではなく、今まさに起きています。その例をいくつかご紹介します。
- Masakhane による汎アフリカ自然言語処理 (NLP):Masakhane はズールー語で「私たちで一緒に構築する」という意味であり、草の根の汎アフリカ研究者コミュニティです。これはコミュニティが自らの問題解決に取り組んでいる好例です。彼らはアフリカの 10 言語について、初の名前付きエンティティ認識 (NER) データセット (MasakhaNER) を作成し、30 を超えるアフリカの言語の翻訳モデルを構築しました。
- 先住民の言語の保存:AI の適用は、消滅の危機にさらされている言語の保護にも拡張されています。カナダ国立研究委員会 (NCR) による先住民言語テクノロジープロジェクトや、言語に関する IBM の取り組み (ブラジルにおける Guarani Mbya など) は、このテクノロジーを文化の保存に活用できる方法を示す画期的な例です。
AI 主権の取り組みの拡大
技術的な活動と並行して、AI 主権の概念をめぐる、より広範な政治的運動が生まれています。AI 主権とは、国家が独自の AI 開発を管理し、他の国 (または地域) からの独立性を維持することを指します。ソブリン AI とは、国境内での機密データの管理、重要なシステムの戦略的独立性の維持、現地文化を反映し、国家の価値観と一致する AI の開発、国内経済の活性化、フレームワークや規制の確立 (欧州連合における EU AI 法など) を指します。
こうした法的および政治的な活動により、Masakhane などのコミュニティの取り組みが推進され、多くの国にとって単なる良いアイデアではなく国家的な優先事項となっています。このことは、ローカルデータセットの収集とソブリン AI 機能の構築という大規模な取り組みの「理由」となります。結局のところ、すべてのデータがその地域の文化的コンテキストを反映していない外国製モデルで処理されていては、AI 主権を実現することはできません。オープンソースモデルのローカル・ファインチューニングは、これらの政策上の要求に対処するのに役立ちます。
多言語 AI の未来
AI がたどる道筋は、何もしなければ文化の均質化に向かう可能性があります。そうなれば、ごく一部の人間の経験でトレーニングされたモデルにより、グローバル文化のニュアンスが平坦化されてしまいます。オープンソースのツールとモデルを使用して、献身的なコミュニティが、より公平で多様な AI エコシステムを構築しています。
オープンソースの原則は非常に強力であり、AI に対するコミュニティ主導のアプローチを推進することが重要です。透明性、コラボレーション、共同開発を取り入れることで、オープンソースはイノベーションの加速に役立ちます。オープンソースにはさまざまな視点やコントリビューションが統合されており、AI の未来を形作ることができます。
たとえば、Red Hat は InstructLab や vLLM などのプロジェクトに関与しており、データサイエンティストだけでなく誰もが知識や専門知識を LLM に提供できるように取り組んでいます。このコラボレーティブなアプローチは、より広範な社会的ニーズや文化的規範を反映した AI テクノロジーの構築に役立ちます。これにより、権限が少数に集中することを減らし、最先端の進歩に誰もがアクセスしやすくなります。
モデルを増やし、バイアスを減らす
モデルのバイアスは通常、モデルのトレーニングに使用されるデータに由来します。多様ではない、あるいは現実世界を反映していないデータセットでモデルをトレーニングすると、そこに内在するバイアスが反映され、増幅されます。 Red OpenShift AI は、開発者がさまざまな AI モデルから選択できるようにすることで、バイアスへの対処を支援します。この柔軟性により、潜在的な偏りのある単一のモデルが押しつけられることはなくなり、ユーザーは特定のコンテキストに最適なモデルや、より多様なデータセットでトレーニングされたモデルを選択できます。OpenShift AI のオープンソースの性質により、透明性が促進され、多様なコントリビューターのコミュニティが実現するため、こうした内在するバイアスをさらに軽減できます。
コミュニティ主導のアプローチは、技術の進歩を加速するだけでなく、AI 開発を民主化し、より多くの個人や組織がこれらの革新的なテクノロジーに貢献し、その恩恵を受けることができるようにします。AI の未来は、不毛なモノカルチャーになるべきではありません。世界中の献身的なオープンソース・コミュニティのおかげで、私たち全員が協力して活気あるエコシステムを構築できます。
より公平で多様な AI エコシステムを推進する準備はできていますか?World Summit AI 2025 に参加して、オープンソースが AI 主権の未来をどのように形成しているかをご覧ください。InstructLab や Red Hat AI Inference Server に関するプロジェクトなど、AI をオープンな方法で活用する Red Hat の取り組みについて詳しくご覧ください。また、AI 開発の民主化に向けて各自が貢献できる方法をご覧ください。 イベントについて詳しくはこちらをご覧ください。
リソース
エンタープライズ AI を始める:初心者向けガイド
執筆者紹介
Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.
類似検索
Implementing best practices: Controlled network environment for Ray clusters in Red Hat OpenShift AI 3.0
Solving the scaling challenge: 3 proven strategies for your AI infrastructure
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください