Con solo una experiencia, se puede plantar una semilla en tu mente que luego se convertirá en una idea mucho más importante. Hace poco visité Japón, un país hermoso con una cultura sofisticada y definida, y recordé que la lengua y la cultura están profundamente entrelazados. La estructura de la lengua no solo refleja la forma en que las personas perciben el mundo, sino que también influye en ella. Por ejemplo, algunas culturas son más informales, mientras que otras, al contar con jerarquías sociales establecidas, tienden a ser más formales. Se manifiesta en la gramática, pero también en la forma en que las personas se saludan, en la manera en que se formulan las preguntas y en el ritmo mismo de la conversación. Esta experiencia me hizo preguntarme: ¿cómo entrenamos la inteligencia artificial para que hable la lengua de todas las culturas a medida que diseñamos una nueva generación?
Inteligencia artificial global
A menudo escuchamos sobre la inteligencia artificial como una herramienta global revolucionaria, una tecnología para toda la humanidad. Pero si aprende de nuestros datos colectivos, ¿cuál es la cultura que realmente adquiere? La promesa de un sistema inteligente a nivel universal es poderosa, pero oculta un problema fundamental, ya que los modelos de inteligencia artificial más potentes de la actualidad no cuentan con neutralidad cultural. Son un reflejo directo de sus datos de entrenamiento, los cuales se centran en el inglés y tienen un sesgo occidental.
El concepto de "soberanía de la inteligencia artificial" se torna particularmente relevante para este entrenamiento de modelos con sesgo occidental. No se trata solo de tener acceso a la tecnología o al hardware, sino también de diseñar una inteligencia artificial que refleje los idiomas, los valores y la cultura únicos de una nación o comunidad. Creemos que la clave para lograrlo radica en el mundo de la inteligencia artificial open source.
La brecha lingüística de la inteligencia artificial en cifras
La soberanía digital, en especial en el contexto de la inteligencia artificial, está transformándose rápidamente de un concepto abstracto a un problema fundamental del mundo real. Las cifras confirman este cambio, desde el lanzamiento de InvestAI en la Unión Europea, que movilizó EUR 200 000 millones para el desarrollo de la inteligencia artificial, incluidos EUR 20 000 millones para la creación de "gigafábricas", hasta el aumento de la inversión privada empresarial del 44,5 % entre 2023 y 2024. Tanto los gobiernos como el sector privado de todo el mundo invierten miles de millones en el desarrollo de ecosistemas nacionales con esta tecnología para garantizar su futuro digital. A medida que los modelos se vuelven más sofisticados y tienen más alcance, la ubicación y el control de los datos que se utilizan para entrenarlos y operarlos tienen implicaciones importantes relacionadas con la seguridad nacional, la competitividad económica y la gobernanza ética. Este control de los datos no es solo un problema teórico, sino una preocupación tangible con consecuencias evidentes.
Los modelos base que solemos conocer se basan principalmente en el idioma inglés. Por ejemplo, el 89,7 % de los datos de entrenamiento previo para Llama 2 de Meta estaban en inglés. Incluso con Llama 3.1, solo el 8 % de su conjunto de datos de 15 billones de tokens no estaba en inglés. De manera similar, el GPT-3 de OpenAI se entrenó con un conjunto de datos que estaba, aproximadamente, en un 93 % en inglés. Estas estadísticas, que se extraen de las hojas de datos de los propios modelos, son muy reveladoras.
La web en sí es la fuente principal de datos de entrenamiento y tiene un sesgo similar. Un buen ejemplo es el conjunto de datos Common Crawl, una instantánea de Internet que se utiliza para entrenar muchos modelos. En una versión reciente, el 46 % de los documentos estaba en inglés, y les seguían el alemán y el ruso, con menos del 6 % cada uno. En contraste, poco menos del 19 % de la población del mundo habla inglés, según el CIA World Factbook 2022.
Las consecuencias de este desequilibrio no solo implican la traducción a diferentes idiomas, sino que dan forma a la adecuación cultural del modelo. Varias investigaciones han demostrado que los modelos de lenguaje de gran tamaño (LLM) tienden a adaptarse a los valores culturales de las sociedades occidentales, educadas, industrializadas, ricas y democráticas (WEIRD), porque esa es la fuente de los datos con los que se entrenaron.
Entrenar un modelo de inteligencia artificial en relación con la lengua puede ser una forma eficiente de representar y reproducir patrones culturales, ya que los idiomas son un reflejo directo de los valores, las creencias y la visión del mundo de una cultura. Al analizar grandes cantidades de texto de un grupo lingüístico y cultural específico, esta tecnología imitará los matices de dicho entorno.
Los chistes de papá son complicados
El entrenamiento de un modelo de inteligencia artificial implica comprender no solo el vocabulario y la gramática, sino también el modo en que la lengua se aplica en la práctica. Por lo tanto, es necesario ir más allá de las palabras literales e incluir el sarcasmo, la ironía, el humor y todo el protocolo social que forma parte de una conversación. Un ejemplo claro es en un breve "chiste de papá". Por ejemplo, le pedí a un modelo de GPT público un "chiste de papá" y me arrojó lo siguiente:
¿Cuál es el café más peligroso del mundo? El ex-preso.
El chiste puede resultar divertido en español, pero puede ser confuso para una persona cuya lengua materna sea distinta, ya que el remate es un juego de palabras que no tendría sentido en otros idiomas. El sarcasmo y el humor (que a veces encontramos en los chistes de papá) solo se materializan cuando se procesan extensos corpus de literatura, documentos históricos, interacciones en las redes sociales e incluso coloquialismos. Al hacerlo, los modelos de inteligencia artificial pueden comenzar a imitar los temas recurrentes, las narrativas dominantes y los marcos cognitivos fundamentales que dan forma a la identidad de una cultura.
Un nuevo camino con la tecnología de open source
Las comunidades no necesitan diseñar sus propios modelos desde cero. La ventaja de la tecnología de open source es que ofrece un camino alternativo. Se puede tomar un "modelo base" open source útil (como Llama) y perfeccionarlo. Esto significa que es posible entrenar aún más el modelo con datos específicos de la cultura, para que aprenda los matices de la lengua, la historia y los marcos legales.
El perfeccionamiento cultural no es solo una teoría; está ocurriendo en la actualidad. Estos son algunos ejemplos:
- Procesamiento del lenguaje natural (NLP) panafricano con Masakhane: Masakhane, cuya traducción aproximada es "construimos juntos" en zulú, es una comunidad panafricana de investigadores que trabaja para resolver sus propios problemas. Crearon el primer conjunto de datos de reconocimiento de entidades con nombre (NER) para diez idiomas africanos (MasakhaNER) y diseñaron modelos de traducción para más de treinta idiomas africanos.
- Preservación de las lenguas indígenas: el uso de inteligencia artificial se extiende a la protección de las lenguas en peligro de extinción. Ciertos proyectos como el de tecnología de idiomas indígenas del Consejo Nacional de Investigación de Canadá (NRC) y el trabajo de IBM con idiomas como el guaraní mbyá en Brasil son ejemplos interesantes de la manera en que la inteligencia artificial se puede utilizar para preservar la cultura.
Las crecientes iniciativas de soberanía de la inteligencia artificial
En paralelo con el trabajo técnico, está surgiendo un movimiento político más amplio en torno al concepto de soberanía de la inteligencia artificial. La idea se refiere a que una nación toma el control de su propio desarrollo de esta tecnología para mantenerse independiente de otros países o regiones. La inteligencia artificial soberana implica controlar los datos confidenciales dentro de las fronteras nacionales, mantener la independencia estratégica de los sistemas fundamentales, desarrollar una tecnología que refleje las culturas locales y se ajuste a los valores nacionales, impulsar la economía nacional y establecer marcos y regulaciones, como la Ley de inteligencia artificial de la Unión Europea.
Este movimiento legal y político impulsa el trabajo de comunidades como Masakhane, por lo que no solo es una buena idea, sino también una prioridad nacional para muchos países. Brinda la motivación detrás de la enorme tarea de recopilar conjuntos de datos locales y desarrollar funciones soberanas de inteligencia artificial. Después de todo, una nación no puede lograr esta soberanía si todos sus datos se procesan a través de modelos extranjeros que no reflejan su contexto cultural. El perfeccionamiento local de los modelos open source permite abordar estas exigencias de las políticas.
Un futuro multilingüe para la inteligencia artificial
El camino predeterminado para la inteligencia artificial podría incluir la homogeneización, donde los matices de las culturas globales se nivelan debido a que los modelos se entrenan con una porción limitada de la experiencia humana. Al utilizar herramientas y modelos open source, las comunidades especializadas diseñan un ecosistema más equitativo y diverso.
Losprincipios de la tecnología de open source son muy sólidos, y es importante defender un enfoque impulsado por la comunidad. Cuando adoptamos la transparencia, la colaboración y el desarrollo compartido, el open source acelera la innovación. Reúne muchas perspectivas y contribuciones diferentes, las cuales pueden dar forma al futuro de la inteligencia artificial.
Por ejemplo, la participación de Red Hat en proyectos como InstructLab y vLLM permite que todas las personas, no solo los analistas de datos, puedan contribuir con su conocimiento y experiencia a los LLM. Con este enfoque colaborativo, se pueden diseñar tecnologías de inteligencia artificial que reflejan una variedad más amplia de necesidades sociales y normas culturales. Ayuda a reducir la concentración de poder en unas pocas manos y posibilita que más personas tengan acceso a los avances de vanguardia.
Más modelos, menos sesgos
Por lo general, el sesgo se origina en los datos que se usan para entrenar un modelo. Si se entrena con un conjunto de datos que no es diverso o representativo del mundo real, reflejará e incrementará esos sesgos inherentes de manera inevitable. Red OpenShift Hat AI ayuda a abordar el problema al permitir que los desarrolladores elijan entre una amplia gama de modelos de inteligencia artificial. Esta flexibilidad significa que no se impone ningún modelo único y posiblemente polarizado, y los usuarios pueden seleccionar los modelos que mejor se adapten a su contexto específico, así como aquellos entrenados con conjuntos de datos más heterogéneos. La naturaleza open source de OpenShift AI también promueve la transparencia y posibilita una comunidad de colaboradores diversos, lo cual ayuda a reducir aún más estos sesgos inherentes.
Un enfoque impulsado por la comunidad no solo ayuda a acelerar el progreso tecnológico, sino que también democratiza el desarrollo de la inteligencia artificial, lo cual permite que una mayor cantidad de personas y empresas contribuya a estas tecnologías transformadoras y se beneficie de ellas. El futuro de la inteligencia artificial no tiene que ser un monocultivo estéril. Gracias a las comunidades open source exclusivas de todo el mundo, puede ser un ecosistema dinámico que construimos todos juntos.
¿Estás listo para defender un ecosistema de inteligencia artificial más equitativo y diverso? Acompáñanos en el evento World Summit AI 2025 para descubrir el modo en que la tecnología de open source determina el futuro de la soberanía de la inteligencia artificial. Obtén más información sobre el compromiso de Red Hat con la inteligencia artificial al estilo open source, lo cual incluye proyectos como InstructLab y Red Hat AI Inference Server, y descubre la manera en que puedes contribuir a democratizar su desarrollo. Obtén más información sobre el evento aquí.
Recurso
Introducción a la inteligencia artificial para las empresas: Guía para principiantes
Sobre el autor
Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.
Más como éste
Smarter troubleshooting with the new MCP server for Red Hat Enterprise Linux (now in developer preview)
Navigating secure AI deployment: Architecture for enhancing AI system security and safety
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube