Redução de vieses em modelos de IA com o open source

18 de setembro de 20257 minutos (tempo de leitura)Inteligência artificial

Principal Product Marketing Manager

Uma experiência pode despertar algo em sua mente que se transformará em uma ideia muito maior. Recentemente, visitei o Japão, um país lindo com uma cultura rica e marcante, e lembrei como a língua e a cultura estão interligadas. A estrutura da linguagem reflete e influencia como as pessoas veem o mundo. Por exemplo, algumas culturas são mais informais, outras tendem a ser mais formais por terem hierarquias sociais estabelecidas. Isso se manifesta na gramática, na forma como as pessoas se cumprimentam, em como as perguntas são feitas e no próprio ritmo da conversa. Essa experiência me fez pensar: conforme criamos uma nova geração de IA, como poderemos treiná-la para falar a linguagem de todas as culturas?

IA Global

Muitas vezes ouvimos falar da IA como uma ferramenta global revolucionária, uma tecnologia para toda a humanidade. No entanto, se a IA está aprendendo com nossos dados coletivos, qual cultura ela está realmente aprendendo? A promessa de um sistema universalmente inteligente é poderosa, mas esconde um problema crítico: os modelos de IA mais influentes da atualidade não são culturalmente neutros. Eles são um reflexo direto de seus próprios dados de treinamento, os quais são predominantemente em inglês e com viés ocidental.

Para lidar com o treinamento de modelos com viés ocidental, o conceito de "soberania da IA" ganha ainda mais destaque. Não basta ter acesso à tecnologia ou ao hardware, é necessário criar uma IA que reflita a linguagem, os valores e a cultura únicos de uma nação ou comunidade. Acreditamos que o segredo para alcançar esse objetivo está na IA open source.

Lacuna linguística da IA

A soberania digital, especialmente no contexto da IA, está deixando de ser um conceito abstrato para se tornar uma questão real e urgente. Os números confirmam essa mudança, desde o lançamento da InvestAI na União Europeia (para mobilizar € 200 bilhões para o desenvolvimento de IA, incluindo € 20 bilhões para a criação de "gigafábricas" de IA), até o investimento privado empresarial aumentando 44,5% de 2023 a 2024, com governos e o setor privado em todo o mundo investindo bilhões no desenvolvimento de ecossistemas de IA domésticos para proteger seu futuro digital. Conforme os modelos de IA ficam mais sofisticados e abrangentes, a localização e o controle dos dados usados para treinamento e operação assumem um papel crucial na segurança nacional, competitividade econômica e governança ética. Esse controle de dados não é somente um problema teórico, mas uma preocupação concreta com impactos visíveis.

Os modelos fundamentais de que falamos estão, em sua maioria, em inglês. Por exemplo, 89,7% dos dados de pré-treinamento do Llama 2 da Meta eram em inglês. Até mesmo no Llama 3.1, 8% do conjunto de dados de 15 trilhões de tokens estavam em idiomas diferentes do inglês. Da mesma forma, o GPT-3 da OpenAI foi treinado com um conjunto de dados com cerca de 93% em inglês. Essas estatísticas, extraídas de documentos técnicos dos próprios modelos, são bastante esclarecedoras.

A principal origem dos dados de treinamento, a web, também sofre distorções. O conjunto de dados Common Crawl, um snapshot da internet usado para treinar muitos modelos, é um ótimo exemplo. Em uma versão recente, 46% dos documentos estavam em inglês, e os idiomas mais próximos, alemão e russo, representam menos de 6% cada. Por outro lado, menos de 19% da população global fala inglês, de acordo com o CIA World Factbook de 2022.

As consequências dessa desigualdade vão além de uma simples tradução. Isso molda o alinhamento cultural do modelo. A pesquisa demonstrou que Large Language Models (LLMs) tendem a se alinhar com os valores culturais das sociedades ocidentais, instruídas, industrializadas, ricas e democráticas (WEIRD, na sigla em inglês), porque essa é a origem dos dados com que foram treinados.

Treinar um modelo de IA com foco em linguagem pode ser uma maneira poderosa de representar e reproduzir padrões culturais, porque as línguas são um reflexo direto dos valores, crenças e visão de mundo de uma cultura. Ao analisar grandes quantidades de texto de um grupo linguístico e cultural específico, a IA aprende a imitar as nuances dessa cultura.

O que a IA ainda não entende: piadas do tio do pavê

Treinar um modelo de IA envolve compreender não apenas vocabulário e gramática, mas também a aplicação prática da linguagem. Isso significa ir além das palavras literais e inclui sarcasmo, ironia, humor e toda a etiqueta social em uma conversa. Podemos ver tudo isso refletido em uma "piada do tio do pavê". Por exemplo, solicitei uma "piada de tio do pavê" a um modelo público de GPT e ele gerou o seguinte:

Estou preocupado com o calendário. Ele está com os dias contados.

Essa piada pode ser engraçada em português, mas pode ser confusa para alguém não nativo, porque o final é uma expressão idiomática comumente encontrada em culturas ocidentais. O sarcasmo e o humor (às vezes encontrados em piadas de tio) só se materializam ao processar extensos corpus de literatura, documentos históricos, interações em redes sociais e até mesmo coloquialismos. Ao fazer isso, os modelos de IA podem começar a imitar temas recorrentes, narrativas dominantes e esquemas cognitivos subjacentes que moldam a identidade de uma cultura.

Open source: uma nova perspectiva

As comunidades não precisam criar seus próprios modelos do zero. A beleza do open source é que ele oferece um caminho alternativo. As comunidades podem ajustar um "modelo base" open source eficiente (como o Llama) e ajustá-lo. Isso significa que eles podem treinar ainda mais o modelo com dados específicos de cada cultura. Dessa forma, ele aprende as nuances da linguagem, história e legislação.

O ajuste fino cultural não é apenas uma teoria, ele está acontecendo agora. Alguns exemplos:

Processamento de linguagem natural (PLN) pan-africano com Masakhane: o Masakhane, que em zulu pode ser traduzido como “Construímos juntos”, é uma comunidade pan-africana de pesquisadores de base. Eles são o exemplo perfeito de uma comunidade que trabalha para resolver seus próprios problemas. Eles criaram o primeiro conjunto de dados de reconhecimento de entidade nomeada (NER) para 10 idiomas africanos (MasakhaNER) e construíram modelos de tradução para mais de 30 idiomas africanos.
Preservação de línguas nativas: a aplicação da IA inclui a proteção de línguas ameaçadas de extinção. Projetos como o Indigenous language technology do Conselho Nacional de Pesquisas do Canadá (NRC) e o trabalho da IBM com línguas como o Guarani Mbya no Brasil são exemplos interessantes de como essa tecnologia pode ser usada para ajudar na preservação cultural.

Os esforços crescentes da soberania da IA

Em paralelo ao trabalho técnico, um movimento público mais amplo está surgindo em torno do conceito de soberania da IA. A soberania da IA se refere a uma nação que assume o controle do desenvolvimento de sua própria IA para permanecer independente de outros países (ou regiões). Ter uma IA soberana significa:

Controlar dados confidenciais em fronteiras nacionais.
Manter a independência estratégica para sistemas críticos.
Desenvolver uma IA que reflita as culturas locais e se alinhe aos valores nacionais.
Impulsionar a economia doméstica.
Estabelecer arcabouços legais e regulamentações, como a Lei da UE sobre a IA na União Europeia.

Essa iniciativa política e legal impulsiona o trabalho de comunidades como a Masakhane, fazendo dela não apenas uma boa ideia, mas uma prioridade nacional em muitos países. Ela fornece a "justificativa" para o grande esforço de coletar conjuntos de dados locais e desenvolver recursos de IA soberana. Afinal, uma nação não pode alcançar a soberania da IA se todos os seus dados forem processados por modelos externos que não refletem seu contexto cultural. O ajuste fino local dos modelos open source ajuda a suprir essas demandas políticas.

O futuro da IA é multilíngue

O caminho padrão da IA pode ser o da homogeneização cultural, onde as nuances de nossas culturas globais são achatadas por modelos treinados em uma parcela reduzida da experiência humana. Ao usar ferramentas e modelos open source, as comunidades dedicadas estão criando um ecossistema de IA mais equitativo e diverso.

Os princípios do open source são muito poderosos, e é importante defender uma abordagem de IA voltada para a comunidade. Quando adotamos transparência, colaboração e desenvolvimento compartilhado, o open source ajuda a acelerar a inovação. Ele reúne muitas perspectivas e contribuições diferentes, que podem moldar o futuro da IA.

Por exemplo, o envolvimento da Red Hat em projetos como o InstructLab e o vLLM está possibilitando que qualquer pessoa, não apenas cientistas de dados, contribua com seu conhecimento e expertise para LLMs. Essa abordagem colaborativa ajuda a criar tecnologias de IA que refletem uma variedade maior das necessidades sociais e normas culturais. Isso ajuda a reduzir o poder concentrado nas mãos de alguns e torna os avanços tecnológicos mais acessíveis a todos.

Mais modelos, menos vieses

O viés do modelo, em geral, vem dos dados usados para treinar um modelo. Caso um modelo seja treinado com um conjunto de dados que não seja diverso ou representativo do mundo real, ele inevitavelmente refletirá e amplificará esses vieses inerentes. O Red OpenShift Hat AI ajuda a lidar com vieses, permitindo que os desenvolvedores escolham entre uma grande variedade de modelos de IA. Essa flexibilidade significa que não é imposto nenhum modelo único e potencialmente enviesado, e os usuários podem selecionar os modelos mais adequados ao seu contexto específico, além de modelos treinados com conjuntos de dados mais diversos. A natureza open source do OpenShift AI também promove a transparência e capacita uma comunidade de colaboradores diversos, ajudando a reduzir ainda mais esses vieses inerentes.

Uma abordagem orientada pela comunidade ajuda a acelerar o progresso tecnológico e democratiza o desenvolvimento da IA, capacitando um número maior de indivíduos e organizações para contribuir com essas tecnologias transformadoras e aproveitá-las. O futuro da IA não precisa ser uma monocultura estéril. Graças às comunidades open source dedicadas em todo o mundo, ela pode ser um ecossistema dinâmico criado por todos nós juntos.

Quer promover um ecossistema de IA mais equitativo e diverso? Junte-se a nós no World Summit AI 2025 para descobrir como o open source está moldando o futuro da soberania da IA. Conheça o compromisso da Red Hat com a IA open source, incluindo projetos como InstructLab e Red Hat AI Inference Server, e descubra como contribuir para a democratização do desenvolvimento da IA. Mais informações sobre o evento aqui.

Sobre o autor

Adam Wealand

Principal Product Marketing Manager

Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.

Mais como este

Blog post

O paradoxo agêntico e o argumento a favor da IA híbrida

Blog post

Agentes de IA exigem um novo stack de infraestrutura: AMD e Red Hat entregam

Podcast original

Technically Speaking | Defining sovereign AI with open source

Podcast original

Technically Speaking | Inside open source AI strategy

Navegue por canal

Explore todos os canais

Redução de vieses em modelos de IA com o open source

IA Global

Lacuna linguística da IA

O que a IA ainda não entende: piadas do tio do pavê

Open source: uma nova perspectiva

Os esforços crescentes da soberania da IA

O futuro da IA é multilíngue

Mais modelos, menos vieses

Introdução à IA empresarial: um guia para iniciantes

Sobre o autor

Adam Wealand

Mais como este

Leia mais

Navegue por canal

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Selecionar idioma

Red Hat legal and privacy links

Red Hat legal and privacy links