O que é inferência de IA?

Copiar URL

A inferência de IA é quando um modelo de IA fornece uma resposta baseada em dados. O que algumas pessoas costumam chamar de "IA" é, na verdade, a inferência de IA: a etapa final de um longo e complexo processo de machine learning.

Treinar modelos de inteligência artificial (IA) com uma quantidade adequada de dados pode ajudar a melhorar a precisão e a velocidade da inferência de IA.

Conheça o Red Hat AI

Por exemplo, ao treinar um modelo de IA com dados sobre animais, como suas diferenças, semelhanças, saúde e comportamento, é necessário um grande volume de informações para que ele consiga reconhecer padrões e fazer conexões.

Com um treinamento eficaz, o modelo pode realizar inferências como identificar a raça de um cachorro, reconhecer o miado de um gato ou detectar sinais de que um cavalo está assustado. Embora ele conheça esses animais apenas por meio de dados abstratos, o extenso treinamento permite ao modelo fazer inferências em um novo ambiente, em tempo real.

O cérebro humano também faz conexões dessa maneira. Aprendemos sobre vários animais em livros, filmes e conteúdos disponíveis na internet. Podemos ver fotos, assistir a vídeos e ouvir os sons emitidos por esses animais. Aí, quando vamos ao zoológico, fazemos a inferência ("Isso é um búfalo!"). Mesmo sem nunca ter ido ao zoológico antes, conseguimos identificar o animal por causa da pesquisa que fizemos. O mesmo acontece com os modelos de IA durante a inferência.

Descubra as novidades do Red Hat AI no nosso próximo evento ao vivo. Participe da próxima sessão ao vivo. 

A inferência é a fase operacional da IA em que o modelo aplica o que aprendeu a situações reais. A capacidade da IA de identificar padrões e tirar conclusões a diferencia de outras tecnologias. A habilidade de inferir pode ajudar em tarefas práticas do cotidiano ou a desenvolver códigos extremamente complexos.

IA preditiva e IA generativa 

Red Hat AI

As empresas podem usar a inferência de IA em diversos casos de uso do cotidiano. Estes são alguns exemplos:

Saúde: a inferência de IA pode ajudar os profissionais de saúde a comparar o histórico do paciente com dados atuais, identificando padrões e anomalias mais rápido do que humanos. Como, por exemplo, uma alteração em uma tomografia cerebral ou um batimento a mais no ritmo cardíaco. Isso pode ajudar a detectar ameaças à saúde do paciente com mais rapidez e antecedência. 

Finanças: após ser treinada com um grande conjunto de dados bancários e informações de crédito, a inferência de IA pode identificar erros ou dados incomuns em tempo real para detectar fraudes. Isso otimiza os recursos de atendimento ao consumidor, protege a privacidade dos clientes e melhora a reputação da marca.

Setor automotivo: com a IA entrando no universo automotivo, os veículos autônomos estão mudando nossa forma de dirigir. A inferência de IA pode ajudar os veículos a escolher a rota mais eficiente do ponto A ao ponto B ou a frear quando se aproximam de uma placa de parada obrigatória, tudo para aumentar a tranquilidade e a segurança de quem está no carro.

Outros setores também estão utilizando a inferência de IA de maneiras criativas. O recurso pode ser aplicado em drive-thrus de lanchonetes, clínica veterinárias ou por concierges de hotéis. As empresas vêm descobrindo formas de usar essa tecnologia para aumentar a precisão, economizar tempo, reduzir custos e preservar sua vantagem competitiva.

Mais casos de uso de inteligência artificial e machine learning 

O treinamento de IA usa dados para o modelo aprender a identificar padrões e relações. Ele ensina ao modelo de IA, enquanto a inferência é o modelo em ação.

O que são modelos fundamentais? 

A maior parte do treinamento de IA acontece nas fases iniciais do desenvolvimento do modelo. Após treinado, o modelo consegue fazer conexões com dados que nunca encontrou antes. Ao treinar um modelo de IA com um conjunto de dados maior, ele pode descobrir mais conexões e fazer inferências mais precisas. Se o modelo tiver dificuldade para fazer inferências corretas após o treinamento, um ajuste fino pode agregar conhecimento e melhorar a precisão.

O treinamento e a inferência são os processos que permitem à IA imitar habilidades humanas, como tirar conclusões a partir de evidências e raciocínio. 

Fatores como o tamanho do modelo podem influenciar a quantidade de recursos necessários para executá-lo. 

Saiba como modelos menores podem facilitar a inferência de GPU.

Diferentes tipos de inferência de IA podem atender a diferentes casos de uso.

  • Inferência em lotes: recebe esse nome porque processa dados em grandes grupos. Em vez de processar inferências em tempo real, esse método processa as informações em ondas, às vezes de hora em hora ou até diariamente, dependendo da quantidade de dados e da eficiência do modelo de IA. Essas inferências também podem ser chamadas de "offline" ou "estáticas".
  • Inferência online: também conhecida como dinâmica, é capaz de gerar respostas em tempo real. Essas inferências exigem hardware e software capazes de reduzir a latência e viabilizar previsões de alta velocidade. A inferência online é bastante útil na edge, ou seja, quando a IA processa os dados diretamente no local em que são gerados. Isso pode ser feito em um celular, carro ou escritório remoto com conectividade limitada.

    O ChatGPT da OpenAI é um bom exemplo de inferência online. Ele exige uma infraestrutura operacional robusta para oferecer respostas rápidas e precisas.

  • Inferência em streaming: descreve um sistema de IA que não é voltado para interação direta com pessoas. Em vez de prompts e solicitações, o modelo recebe um fluxo constante de informações para fazer previsões e atualizar seu banco de dados interno. A inferência em streaming pode monitorar alterações, manter a regularidade ou prever um problema antes que ele surja. 

Veja como a inferência distribuída com vLLM pode contornar obstáculos

Um servidor de inferência de IA é o software que auxilia um modelo de IA a fazer a transição do treinamento para a operação. Ele usa machine learning para ajudar o modelo a aplicar e colocar o que aprendeu em prática para gerar inferências.

Para obter resultados eficientes, o servidor de inferência e o modelo de IA precisam ser compatíveis. Estes são alguns servidores de inferência e os modelos mais adequados para cada um:

  • Servidor de inferência multimodal: este tipo de servidor de inferência consegue operar com vários modelos ao mesmo tempo. Isso significa que ele pode receber dados em código, imagens ou texto e processar todas essas diferentes inferências em um único servidor. Um servidor de inferência multimodal utiliza a memória da GPU e da CPU de forma mais eficiente para operar com mais de um modelo. Isso ajuda a otimizar o hardware, facilita a escala e reduz os custos.
  • Servidor de inferência de modelo único: esse servidor opera apenas um modelo, em vez de vários. O processo de inferência de IA é especializado para se comunicar com um modelo treinado em um caso de uso específico. Ele processará os dados em texto ou apenas em código. Sua natureza especializada o torna incrivelmente eficiente, podendo ajudar nas tomadas de decisão em tempo real ou em situações de restrição de recursos. 

Os principais desafios na execução de inferências de IA são a escala, os recursos e os custos.

  • Complexidade: é mais fácil ensinar um modelo a executar tarefas simples, como gerar uma imagem ou informar um cliente sobre uma política de devolução. Conforme os modelos passam a lidar com informações mais complexas, como a detecção de fraudes financeiras ou a identificação de anomalias médicas, eles demandam uma maior quantidade de dados durante o treinamento, além de mais recursos para processar e gerenciar esses dados. 
     
  • Recursos: modelos mais complexos precisam de hardware e software especializados para lidar com o grande volume de processamento de dados que ocorre quando gera inferências. Um componente essencial desses recursos é a memória da unidade central de processamento (CPU). Uma CPU costuma ser chamada de hub ou centro de controle de um computador. Quando um modelo se prepara para aplicar o que aprendeu (dados de treinamento) e gerar uma resposta, ele precisa acessar os dados armazenados na memória da CPU. 
     
  • Custos: os elementos que viabilizam a inferência de IA não são baratos. Seja seu objetivo escalar ou fazer a transição para um hardware moderno com suporte a IA, os recursos necessários para implementar a solução completa podem ser significativos. À medida que o modelo se torna mais complexo e o hardware continua a evoluir, os custos podem aumentar acentuadamente, tornando difícil para as organizações acompanharem as inovações em IA.  

 

A inferência de IA fica mais complicada ao escalar na empresa. Quando não é fácil escalar as inferências, o time to market aumenta e a adoção dos casos de uso de IA generativa em toda a empresa fica mais complexa.

O llm-d é um framework de IA open source que acelera a inferência distribuída em grande escala. Isso significa que o llm-d é compatível com as necessidades complexas e não uniformes da inferência do LLM. Usar ferramentas como o llm-d ou o LLM Compressor pode ajudar você a fazer inferências com mais rapidez, tirando a sobrecarga de sua equipe e recursos.

O que é vLLM? 

O Red Hat AI é um conjunto de soluções e serviços para sua empresa que ajuda em todas as etapas da jornada de IA, desde o começo até a fase de escalabilidade. Ele pode viabilizar iniciativas de IA generativa e preditiva para casos de uso exclusivos da sua empresa.

Com o Red Hat AI, você tem acesso ao Red Hat® AI Inference Server para otimizar a inferência de modelos na nuvem híbrida, garantindo implantações mais rápidas e econômicas. Com a tecnologia vLLM, o servidor de inferência maximiza a utilização da GPU e reduz os tempos de resposta.

Mais informações sobre o Red Hat AI Inference Server 

O Red Hat AI Inference Server inclui o repositório do Red Hat AI, uma coleção de modelos otimizados e validados por terceiros, que oferece flexibilidade e promove a consistência entre equipes. Com acesso ao repositório de modelos de terceiros, as empresas conseguem acelerar o time to market e reduzir as barreiras financeiras para o sucesso da IA.  

Veja o repositório no Hugging Face

Mais informações sobre os modelos validados pelo Red Hat AI

O Red Hat AI é baseado em tecnologias open source e em um ecossistema de parceiros que priorizam desempenho, estabilidade e compatibilidade com GPUs em diversas infraestruturas.

Conheça nosso ecossistema de parceiros

Recurso

Introdução à IA empresarial: um guia para iniciantes

Leia este guia para iniciantes e descubra como o Red Hat OpenShift AI e o Red Hat Enterprise Linux AI podem ajudar a acelerar sua jornada de adoção da inteligência artificial.

Red Hat AI

O Red Hat AI oferece opções flexíveis e econômicas que aceleram o desenvolvimento e a implantação de soluções de IA em ambientes de nuvem híbrida.

Leia mais

O que é inferência distribuída?

A inferência distribuída permite que modelos de IA processem cargas de trabalho de forma mais eficiente, dividindo a execução da inferência entre um conjunto de dispositivos interconectados.

O que é Model Context Protocol (MCP)?

Descubra como o Model Context Protocol (MCP) conecta aplicações de IA a fontes de dados externas para ajudar a criar fluxos de trabalho mais inteligentes.

O que é segurança de IA?

A segurança de IA protege aplicações de inteligência artificial contra ataques maliciosos que visam enfraquecer cargas de trabalho, manipular dados ou roubar informações confidenciais.

Inteligência artificial: leitura recomendada

Artigos relacionados