O que são modelos fundamentais para IA?

Publicado 14 de setembro de 2023•6 minutos (tempo de leitura)

Um modelo fundamental é um tipo de modelo de machine learning (aprendizado de máquina) treinado previamente para realizar diversas tarefas.

Até recentemente, os sistemas de inteligência artificial (IA) eram ferramentas especializadas. Ou seja, os modelos de machine learning (ML) eram treinados para uma aplicação ou caso de uso específico. O termo modelo fundamental passou a fazer parte do nosso vocabulário quando especialistas começaram a observar duas tendências no campo de machine learning:

Um pequeno número de arquiteturas de deep learning sendo usado para obter resultados em uma ampla variedade de tarefas.
Novos conceitos podem surgir de um modelo de inteligência artificial (IA) que não estavam inicialmente previstos durante o seu treinamento.

Os modelos fundamentais, como os modelos Granite da IBM, foram programados para funcionar com uma compreensão contextual geral de padrões, estruturas e representações. Essa compreensão fundamental de como se comunicar e identificar padrões gera uma linha de base de conhecimento que pode ser modificada ou ajustada para realizar tarefas específicas de um domínio para praticamente qualquer setor.

Mais informações sobre o Red Hat AI

Duas características essenciais para o funcionamento dos modelos fundamentais são a aprendizagem por transferência e de forma escalável. Aprendizado por transferência se refere à capacidade do modelo de aplicar informações de uma situação em outra e, assim, construir seu "conhecimento" interno.

De forma escalável se refere ao hardware, especificamente às unidades de processamento gráfico (GPUs), que permite que o modelo execute vários cálculos simultaneamente (processamento paralelo). Por serem capazes de processar dados e fazer cálculos estatísticos complexos rapidamente, as GPUs são fundamentais para treinar e implantar modelos de deep learning, incluindo os modelos fundamentais.

Deep learning e modelos fundamentais
Muitos modelos fundamentais, principalmente os usados em PLN (Processamento de Linguagem Natural), visão computacional e processamento de áudio, são treinados com técnicas de deep learning. O deep learning é uma tecnologia que sustenta muitos modelos fundamentais (mas não todos) e tem sido responsável por diversos avanços na área. Também conhecido como aprendizado neural profundo ou rede neural profunda, ele ensina os computadores a aprender por meio da observação, imitando como os humanos adquirem conhecimento.

Transformadores e modelos fundamentais
Embora nem todos os modelos fundamentais usem transformadores, essa arquitetura se tornou uma das abordagens mais usadas em modelos que lidam com texto, como o ChatGPT, BERT e DALL-E 2. Com os transformadores, os modelos de aprendizado de máquina conseguem identificar relações contextuais e dependências em sequências de dados com mais eficiência. Esse tipo de rede neural artificial (RNA) é utilizado em modelos de PLN, mas não é comum em modelos de machine learning que utilizam unicamente visão computacional ou modelos de processamento de fala.

Depois que um modelo fundamental é treinado, ele usa tudo o que aprendeu com grandes volumes de dados para resolver problemas. Essa habilidade pode oferecer insights e contribuições relevantes para as organizações de muitas maneiras. Estas são algumas das tarefas gerais que esses modelos podem executar:

PLN (Processamento de Linguagem Natural)
Reconhecendo contexto, gramática e estruturas linguísticas, um modelo fundamental treinado em PLN pode gerar e extrair informações dos dados com os quais são treinados. Treinar um modelo de PLN para associar textos a sentimentos (positivos, negativos ou neutros) pode ser útil para empresas que querem analisar o conteúdo de mensagens escritas, como feedback dos clientes, comentários ou publicações em redes sociais. O PLN é um campo mais amplo que inclui o desenvolvimento e a aplicação de Large Language Models (LLMs).

Visão computacional
Quando o modelo é capaz de reconhecer formas e características básicas, ele começa a identificar padrões. É possível ajustar um modelo de visão computacional para realizar moderação de conteúdo automatizada, reconhecimento facial e classificação de imagens. Esses modelos também podem gerar novas imagens com base nos padrões aprendidos.

Processamento de áudio/fala
Quando um modelo é capaz de reconhecer elementos fonéticos, ele pode extrair significado de nossas vozes, permitindo uma comunicação mais eficiente e inclusiva. Assistentes virtuais, suporte em diferentes idiomas, comandos de voz e funcionalidades como transcrição promovem a acessibilidade e a produtividade.

Com ajuste fino, organizações podem desenvolver sistemas de machine learning especializados para atender a necessidades específicas do setor, como detecção de fraudes para instituições financeiras, sequenciamento genético para a área da saúde, chatbots para atendimento ao cliente e muito mais.

Os modelos de base fornecem acessibilidade e um nível de sofisticação no campo da IA que muitas organizações não têm recursos para alcançar por conta própria. Com a adoção e desenvolvimento de modelos fundamentais, as empresas podem superar desafios típicos, como:

Acesso limitado a dados de qualidade: os modelos fundamentais são criados a partir de dados aos quais a maioria das organizações não tem acesso.

Desempenho/precisão do modelo: modelos fundamentais oferecem uma precisão que uma organização levaria meses ou até mesmo anos para obter por conta própria.

Time to value (TTV): treinar um modelo de machine learning pode levar muito tempo e exige muitos recursos. Os modelos fundamentais oferecem um treinamento inicial que as organizações podem ajustar para obter um resultado sob medida.

Limitação de talentos: com modelos fundamentais, as organizações podem usar inteligência artificial e machine learning sem a necessidade de grandes investimentos em recursos de ciência de dados.

Gerenciamento de despesas: o uso de um modelo fundamental reduz a necessidade de hardware caro para o treinamento inicial. Os custos para ajustar e disponibilizar o modelo finalizado são apenas uma fração do que custaria treinar o modelo fundamental.

Descubra como a IA pode levar sua empresa mais longe

Embora existam muitas aplicações fascinantes para modelos fundamentais, também há vários desafios em potencial a serem considerados.

Custo
É necessário investir recursos significativos para desenvolver, treinar e implantar modelos fundamentais. A fase inicial de treinamento desses modelos demanda grandes quantidades de dados genéricos, consome dezenas de milhares de GPUs e, muitas vezes, requer um grupo de engenheiros de machine learning e cientistas de dados.

As organizações podem evitar o incômodo de treinar um modelo do zero usando Modelos como Serviço (MaaS). Para colocar os modelos em uso em uma aplicação dinâmica, elas podem utilizar um servidor de inferência como vLLM. O vLLM oferece recursos de inferência eficientes em grande escala, permitindo que os desenvolvedores aproveitem cada potencial de desempenho do hardware.

Para modelos fundamentais muito grandes com bilhões de parâmetros, técnicas como inferência distribuída e llm-d podem oferecer ainda mais eficiência e potencial de economia de recursos.

Interpretabilidade
"Caixa preta" é quando um programa de IA executa uma tarefa em sua rede neural, mas não mostra como chegou ao resultado. Isso cria um cenário onde ninguém, incluindo os cientistas e engenheiros de dados que criaram o algoritmo, consegue explicar como o modelo chegou a um resultado específico. A ausência de interpretabilidade em modelos de caixa preta pode gerar consequências graves em cenários de tomada de decisões importantes, especialmente em setores como saúde, justiça criminal ou financeiro. Esse efeito de caixa preta pode ocorrer em qualquer modelo baseado em redes neurais, não apenas em modelos fundamentais.

Privacidade e segurança
Os modelos fundamentais exigem acesso a muitas informações que podem incluir dados de clientes ou dados empresariais proprietários. Isso é algo com que se deve ter um cuidado especial, principalmente se o modelo for implantado ou acessado por entidades externas.

Mais informações sobre segurança da IA

Precisão e viés
Se um modelo de deep learning for treinado usando dados estatisticamente enviesados ou não fornecer uma representação precisa da população, o resultado pode apresentar falhas. Infelizmente, é comum que o viés humano seja transferido para a inteligência artificial, o que pode criar algoritmos e resultados discriminatórios. À medida que as organizações continuam a explorar a IA para melhorar o desempenho e a produtividade, é fundamental implementar estratégias para minimizar os vieses. Isso começa com processos de design inclusivos e uma consideração mais cuidadosa sobre a representação da diversidade nos dados coletados.

As organizações podem melhorar a precisão da saída de seus modelos padronizando como eles acessam e usam dados externos pelo Model Context Protocol (MCP). Ao criar um fluxo de comunicação estruturado entre o modelo e documentos externos (como documentos internos da empresa ou APIs em tempo real), é possível rastrear, verificar e filtrar vieses nos resultados. Criar uma conexão formalizada com o MCP também facilita o escalonamento e a manutenção de um sistema de Geração Aumentada de Recuperação (RAG) à medida que novas fontes de dados são apresentadas.

Operacionalize a IA com o Red Hat AI

O Red Hat^® AI é nosso portfólio de soluções de IA, desenvolvido com base em soluções em que nossos clientes confiam.

O Red Hat AI pode ajudar as organizações a:

Adotar a IA e inovar rapidamente.
Reduzir as complexidades da entrega de soluções de IA.
Implantar em qualquer lugar.

Conheça o Red Hat AI

Acesse modelos da família Granite da IBM com facilidade

Se você quiser experimentar modelos fundamentais, mas não tiver certeza quais são os casos de uso para o seu negócio, comece pelo Red Hat^® Enterprise Linux^® AI. O Red Hat Enterprise Linux é uma plataforma para executar LLMs em ambientes de servidores individuais. A solução inclui o Red Hat AI Inference Server, que oferece inferências rápidas e econômicas na nuvem híbrida, maximizando a taxa de transferência e minimizando a latência.

Os desenvolvedores têm acesso rápido a um único ambiente de servidor, com LLMs e conjuntos de ferramentas de IA. Com ela, você tem o necessário para ajustar modelos e desenvolver aplicações de gen IA.

Conheça o Red Hat Enterprise Linux AI

O que são modelos fundamentais para IA?

Acesse a biblioteca de conteúdos da Red Hat

Acesse modelos da família Granite da IBM com facilidade

Introdução à IA empresarial: um guia para iniciantes

Todos os testes de soluções Red Hat

Leia mais

O que é inferência distribuída?

O que é Model Context Protocol (MCP)?

Tudo sobre a AIOps

Inteligência artificial: conteúdo adicional

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links