Une expérience peut développer dans l'esprit une idée bien plus importante. Mon récent voyage au Japon, un pays magnifique à la culture riche et unique, m’a rappelé à quel point langue et culture sont étroitement liées. La structure d'une langue reflète la façon dont les individus perçoivent le monde et l'influencent aussi. Par exemple, certaines cultures sont plus informelles, tandis que d'autres, qui ont une hiérarchie sociale bien établie, sont souvent plus formelles. Cette particularité se retrouve dans la grammaire, ainsi que dans la manière dont les personnes se saluent, dont elles formulent leurs questions et dans le rythme même des conversations. Cette expérience a suscité en moi une question : alors que nous créons une nouvelle génération d'IA, comment l'entraîner pour qu'elle parle la langue de toutes les cultures ?
L'IA mondiale
L'IA est souvent perçue comme un outil révolutionnaire à l'échelle mondiale, une technologie qui s'adresse à l'humanité entière. Pourtant, si l'IA apprend de nos données collectives, de quelle culture tire-t-elle des enseignements ? Si la promesse d'un système intelligent universel est séduisante, elle masque un problème essentiel : les modèles d'IA les plus puissants à l'heure actuelle ne sont pas culturellement neutres. Ils reflètent directement leurs données d'entraînement, qui sont majoritairement centrées sur le monde anglophone et présentent un biais occidental.
Le concept de « souveraineté de l'IA » est particulièrement pertinent dans cet entraînement des modèles occidentalocentré. Il ne s'agit pas seulement d'accéder à des technologies ou du matériel, mais aussi de créer une IA capable de refléter les langues, valeurs et cultures uniques d'un pays ou d'une population. Nous sommes convaincus que la clé pour concrétiser cette promesse réside dans le monde de l'IA Open Source.
Le fossé linguistique de l'IA en chiffres
La souveraineté numérique, en particulier dans le contexte de l'IA, jusqu’alors concept abstrait, évolue rapidement en un problème concret et essentiel. Les chiffres confirment cette évolution : du lancement par l'UE d'InvestAI, qui a mobilisé 200 milliards d'euros pour le développement de l'IA, dont 20 milliards d'euros pour la construction de « giga-usines » d'IA, aux investissements privés des entreprises, qui ont augmenté de 44,5 % entre 2023 et 2024. Le secteur privé et les pouvoirs publics du monde entier investissent des milliards dans le développement d'écosystèmes d'IA nationaux pour assurer leur avenir numérique. Avec la sophistication et la portée croissantes des modèles d'IA, la localisation et la gestion des données utilisées pour leur entraînement et leur exploitation ont des implications importantes en matière de sécurité nationale, de compétitivité économique et d'éthique de la gouvernance. Cette gestion des données n'est pas qu'un problème théorique. Elle génère de vraies inquiétudes aux implications évidentes.
Les modèles de fondation dont nous entendons souvent parler sont essentiellement basés sur l'anglais. Par exemple, 89,7 % des données de préentraînement du modèle Llama 2 de Meta étaient en anglais. Même avec Llama 3.1, seuls 8 % de son ensemble de 15 000 milliards de jetons textuels n'étaient pas en anglais. De même, GPT-3 d'OpenAI a été entraîné sur un ensemble de données contenant environ 93 % d'anglais. Ces statistiques, tirées tout droit des fiches techniques des modèles, sont assez édifiantes.
Le Web, qui représente la principale source de données d'entraînement, est tout aussi biaisé. L'ensemble de données Common Crawl, un instantané d'Internet utilisé pour entraîner de nombreux modèles, en est un exemple parfait. Dans une version récente, 46 % des documents étaient en anglais, les langues suivantes étant l'allemand et le russe (moins de 6 % chacune). Or, un peu moins de 19 % de la population mondiale parle l'anglais, selon le World Factbook 2022 de la CIA.
Les conséquences de ce déséquilibre dépassent la simple traduction dans un cadre linguistique, il façonne également l'alignement culturel du modèle. Des recherches ont mis en évidence que les grands modèles de langage (LLM) ont tendance à s'aligner sur les valeurs culturelles des sociétés occidentales, développées, industrialisées, riches et démocratiques, car il s'agit de la source des données utilisées pour leur entraînement.
L'entraînement d'un modèle d'IA sur l'aspect linguistique peut être un moyen efficace de représenter et reproduire des schémas culturels, car les langues reflètent directement les valeurs, les croyances et la vision du monde d'une culture. En analysant de grandes quantités de texte issu d'un groupe linguistique et culturel spécifique, l'IA apprend à imiter les nuances de cette culture.
La complexité des blagues
L'entraînement d'un modèle d'IA implique de comprendre le vocabulaire et la grammaire, mais aussi l'usage pratique d'une langue. Ce processus implique de dépasser le littéralisme pour inclure le sarcasme, l'ironie, l'humour et toutes les conventions sociales qui font partie de la conversation. Ces questions peuvent se retrouver dans les blagues. Par exemple, j'ai demandé à un modèle GPT public de composer une blague, et voici sa production :
Le fromage n'en a plus pour longtemps. Ses jours sont Comté.
Cette blague pourrait faire sourire en français, mais elle pourrait déstabiliser les francophones non natifs, car ce type d'humour est courant dans les cultures occidentales. Le sarcasme et l'humour (parfois trouvés dans les blagues) ne se matérialisent qu'en traitant de vastes corpus littéraires, de documents historiques, d'interactions sur les réseaux sociaux et même d'expressions familières. Les modèles d'IA commencent ainsi à imiter les thèmes récurrents, les récits dominants et les cadres cognitifs sous-jacents qui façonnent l'identité d'une culture.
L'Open Source ouvre la voie
Les communautés n'ont pas besoin d'assembler leurs propres modèles à partir de zéro. L'Open Source offre une autre option, c'est là tout son intérêt Les communautés peuvent prendre un « modèle de base » Open Source puissant (tel que Llama) et y appliquer un réglage fin. Elles peuvent ainsi entraîner davantage le modèle à partir de données propres à leurs cultures, afin qu'il apprenne les nuances de leur langue, de leur histoire et de leurs contextes juridiques.
Le réglage fin culturel n'est pas qu'une simple théorie : il se produit en ce moment même. Voici quelques exemples :
- Traitement du langage naturel panafricain avec Masakhane : ce mot, qui signifie approximativement « Nous construisons ensemble » en zoulou, est une communauté panafricaine citoyenne de chercheurs. Il s'agit d'un parfait exemple de communauté qui œuvre à résoudre ses problèmes. Elle a créé le tout premier ensemble de données de reconnaissance d'entités nommées (NER) pour 10 langues d'Afrique (MasakhaNER) et a élaboré des modèles de traduction pour plus de 30 langues africaines.
- Préservation des langues autochtones : les applications de l'IA s'étendent à la protection des langues en voie de disparition. Des projets tels que le Projet sur les technologies pour les langues autochtones du Conseil national de recherches Canada et les travaux d'IBM sur des langues telles que le Guarani Mbya au Brésil sont des exemples intéressants d'utilisation de ces technologies pour contribuer à la préservation des cultures.
Les efforts croissants en matière de souveraineté de l'IA
En parallèle du travail technique, un mouvement politique plus large se fait jour autour de la souveraineté de l'IA. Ce concept se rapporte à un pays qui prend en charge le développement de sa propre IA, afin de garantir son indépendance vis-à-vis d'autres pays (ou régions). L'IA souveraine implique la maîtrise des données sensibles au sein des frontières nationales, la préservation de l'indépendance stratégique des systèmes essentiels, le développement d'une IA qui reflète les cultures locales et correspond aux valeurs nationales, le renforcement de l'économie nationale ainsi que la mise en place de cadres et de réglementations, tels que la loi européenne sur l'intelligence artificielle.
Ce mouvement juridique et politique stimule le travail de communautés telles que Masakhane, ce qui en fait un beau projet, mais aussi une priorité nationale pour de nombreux pays. Il explique les raisons des importants projets de collecte d'ensembles de données locales et de développement de capacités de l'IA souveraine. Après tout, un pays ne peut accéder à la souveraineté de l'IA si l'ensemble de ses données sont traitées par des modèles étrangers qui ne prennent pas en compte son contexte culturel. Le réglage fin local des modèles Open Source permet de satisfaire ces exigences en matière de politiques.
Un avenir pour l'IA multilingue
La voie par défaut pour l'IA pourrait être celle de l'homogénéisation culturelle, où les nuances de nos cultures mondiales sont nivelées par des modèles entraînés sur une part infime de l'expérience humaine. Grâce aux outils et modèles Open Source, certaines communautés créent un écosystème d'IA plus équitable et plus diversifié.
Les principes de l'Open Source sont très puissants, et il est important de promouvoir une approche communautaire de l'IA. En adoptant la transparence, la collaboration et le développement partagé, l'Open Source nous permet d'accélérer l'innovation. Ce modèle rassemble de nombreuses perspectives et contributions différentes qui peuvent façonner l'avenir de l'IA.
Par exemple, grâce à notre implication dans des projets comme InstructLab et le vLLM, nous offrons à chacun, pas seulement aux data scientists, la possibilité d'apporter ses connaissances et son expertise aux LLM. Cette approche collaborative permet de mettre au point des technologies d'IA qui reflètent un plus large éventail de besoins sociétaux et de normes culturelles. Elle permet de réduire la concentration du pouvoir entre quelques mains et d'augmenter l'accessibilité des avancées technologiques de pointe.
Une augmentation des modèles pour une réduction des biais
Les biais des modèles proviennent généralement des données utilisées pour entraîner un modèle. Si un modèle est entraîné à partir d'un ensemble de données qui n'est pas diversifié ou représentatif du monde réel, il va inévitablement refléter et amplifier ces biais inhérents. Red Hat OpenShift AI est capable d'éliminer les biais en offrant aux équipes de développement un large choix de modèles d'IA. Cette flexibilité implique qu'aucun modèle unique, potentiellement biaisé, n'est imposé, et que les utilisateurs peuvent sélectionner les modèles les plus adaptés à leur contexte spécifique, ainsi que des modèles entraînés à partir d'ensembles de données plus variés. La nature Open Source d'OpenShift AI favorise également la transparence et permet la mise en place d'une communauté de divers contributeurs, ce qui permet de réduire davantage ces biais inhérents.
Grâce à une approche communautaire, il est non seulement possible d'accélérer les progrès technologiques, mais aussi d'améliorer l'accessibilité du développement de l'IA. Ainsi, un plus grand nombre d'individus et d'entreprises est en mesure de contribuer à ces technologies transformatives et d'en bénéficier. L'avenir de l'IA ne doit pas forcément être une culture monolithique. Grâce aux communautés Open Source du monde entier, nous pouvons créer un écosystème dynamique auquel chacun peut contribuer.
Vous souhaitez promouvoir un écosystème d'IA plus équitable et diversifié ? Rejoignez-nous à l'occasion du World Summit AI 2025 pour découvrir comment l'Open Source façonne l'avenir de la souveraineté de l'IA. Découvrez notre engagement en faveur de l'IA ouverte, notamment dans des projets comme InstructLab et Red Hat AI Inference Server, et les possibilités de contribution à la démocratisation du développement de l'IA. Cliquez ici pour en savoir plus sur l'événement.
Ressource
Se lancer avec l'IA en entreprise : guide pour les débutants
À propos de l'auteur
Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.
Plus de résultats similaires
AI quickstarts: An easy and practical way to get started with Red Hat AI
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud