O que é inferência de IA?

Copiar URL

A inferência de IA é quando um modelo de IA fornece uma resposta baseada em dados. O que algumas pessoas costumam chamar de "IA" é, na verdade, a inferência de IA: a etapa final de um longo e complexo processo de machine learning.

Treinar modelos de inteligência artificial (IA) com uma quantidade adequada de dados pode ajudar a melhorar a precisão e a velocidade da inferência de IA.

Conheça o Red Hat AI

 

Por exemplo, quando um modelo de IA é treinado com dados sobre animais, como diferenças e semelhanças entre eles e questões típicas de saúde e comportamento, ele precisa de um grande volume de informações para fazer conexões e identificar padrões.

Após um treinamento bem-sucedido, o modelo pode fazer inferências como identificar uma raça de cachorro, reconhecer o miado de um gato ou até mesmo alertar sobre um cavalo assustado. Embora ele conheça esses animais apenas por meio de dados abstratos, o extenso treinamento permite ao modelo fazer inferências em um novo ambiente, em tempo real.

O cérebro humano também faz conexões dessa maneira. Podemos aprender sobre diferentes animais em livros e filmes, ver fotos, assistir a vídeos e ouvir os sons que fazem. Aí, quando vamos ao zoológico, fazemos a inferência ("Isso é um búfalo!"). Mesmo sem nunca ter ido ao zoológico antes, conseguimos identificar o animal por causa da pesquisa que fizemos. O mesmo acontece com os modelos de IA durante a inferência.

O que são modelos de base? 

A inferência é a fase operacional da IA na qual o modelo é capaz de aplicar o que aprendeu no treinamento em situações reais. A capacidade da IA de identificar padrões e tirar conclusões a diferencia de outras tecnologias. A habilidade de inferir pode ajudar em tarefas práticas do cotidiano ou a desenvolver códigos extremamente complexos.

IA preditiva e IA generativa 

Inteligência artificial da Red Hat

As empresas podem usar a inferência de IA em diversos casos de uso do dia a dia. Estes são alguns exemplos:

Saúde: a inferência de IA pode ajudar os profissionais de saúde a comparar o histórico do paciente com dados atuais e identificar padrões e alterações mais rapidamente, como anomalias em uma tomografia cerebral ou diferenças no ritmo cardíaco. Isso pode ajudar a detectar ameaças à saúde do paciente rapidamente e com mais antecedência. 

Finanças: após ser treinada com um  grande conjunto de dados  bancários e informações de crédito, a inferência de IA pode identificar erros ou dados incomuns em tempo real para detectar fraudes. Isso otimiza os recursos de atendimento ao consumidor, protege a privacidade dos clientes e melhora a reputação da marca.

Setor automotivo: com a IA entrando no universo automotivo, os veículos autônomos estão mudando nossa forma de dirigir. A inferência de IA pode ajudar os veículos a escolher a rota mais eficiente do ponto A ao ponto B ou a frear quando se aproximam de uma placa de parada obrigatória, tudo para aumentar a tranquilidade e a segurança de quem está no carro.

Outros setores também estão utilizando a inferência de IA de maneiras criativas. O recurso pode ser aplicado em drive-thrus de lanchonetes, clínica veterinárias ou por concierges de hotéis. As empresas vêm descobrindo formas de usar essa tecnologia para aumentar a precisão, economizar tempo, reduzir custos e preservar sua vantagem competitiva.

Mais casos de uso de inteligência artificial e machine learning 

O treinamento de IA usa dados para instruir o modelo sobre como fazer conexões e identificar padrões. Ele ensina ao modelo de IA, enquanto a inferência é o modelo em ação.

A maior parte do treinamento de IA ocorre nos estágios iniciais do desenvolvimento do modelo. Após treinado, o modelo consegue fazer conexões com dados que nunca encontrou antes. Ao treinar um modelo de IA com um conjunto de dados maior, ele pode descobrir mais conexões e fazer inferências mais precisas. Se o modelo tiver dificuldade para fazer inferências corretas após o treinamento, um ajuste fino pode agregar conhecimento e melhorar a precisão.

O treinamento e a inferência de IA são os meios pelos quais a IA é capaz de imitar habilidades humanas, como tirar conclusões com base em evidências e raciocínio. 

Diferentes tipos de inferência de IA podem atender a diferentes casos de uso.

  • Inferência em lote: é chamada assim porque recebe e processa dados em grandes grupos. Em vez de processar inferências em tempo real, esse método processa as informações em ondas, às vezes de hora em hora ou até diariamente, dependendo da quantidade de dados e da eficiência do modelo de IA. Essas inferências também podem ser chamadas de "offline" ou "estáticas".
  • Inferência online: a inferência online ou "dinâmica" pode fornecer respostas em tempo real. Essas inferências exigem hardware e software capazes de reduzir a latência e viabilizar previsões de alta velocidade. A inferência online é especialmente útil  na edge, ou seja, quando a IA processa os dados diretamente no local em que são gerados. Isso pode ser feito em um celular, carro ou escritório remoto com conectividade limitada.

    O ChatGPT da OpenAI é um bom exemplo de inferência online. Ele exige uma infraestrutura operacional robusta para oferecer respostas rápidas e precisas.

  • Inferência em streaming: descreve um sistema de IA que não é necessariamente usado para se comunicar com humanos. Em vez de prompts e solicitações, o modelo recebe um fluxo constante de informações para fazer previsões e atualizar seu banco de dados interno. A inferência em streaming pode monitorar alterações, manter a regularidade ou prever um problema antes que ele surja. 

Um servidor de inferência de IA é o software que auxilia um modelo de IA a fazer a transição do treinamento para a operação. Ele usa machine learning para ajudar o modelo a aplicar e colocar o que aprendeu em prática para gerar inferências.

Para obter resultados eficientes, o servidor de inferência e o modelo de IA precisam ser compatíveis. Estes são alguns servidores de inferência e os modelos que melhor funcionam com eles:

  • Servidor de inferência multimodal: esse tipo de servidor de inferência consegue operar com vários modelos ao mesmo tempo. Isso significa que ele pode receber dados em código, imagens ou texto e processar todas essas diferentes inferências em um único servidor. Um servidor de inferência multimodal utiliza a memória da GPU e da CPU de forma mais eficiente para operar com mais de um modelo. Isso ajuda a otimizar o hardware, facilita a escala e reduz os custos.
  • Servidor de inferência de modelo único: esse servidor opera apenas um modelo, em vez de vários. O processo de inferência de IA é especializado para se comunicar com um modelo treinado em um caso de uso específico. Ele processará os dados em texto ou apenas em código. Sua natureza especializada o torna incrivelmente eficiente, podendo ajudar nas tomadas de decisão em tempo real ou em situações de restrição de recursos. 

Os maiores desafios ao executar inferências de IA são escala, recursos e custos.

  • Complexidade: é mais fácil ensinar um modelo a executar tarefas simples, como gerar uma imagem ou informar um cliente sobre uma política de devolução. Conforme os modelos passam a lidar com informações mais complexas, como a detecção de fraudes financeiras ou a identificação de anomalias médicas, eles demandam uma maior quantidade de dados durante o treinamento, além de mais recursos para processar e gerenciar esses dados. 
     
  • Recursos: modelos mais complexos precisam de hardware e software especializados para lidar com o grande volume de processamento de dados que ocorre quando gera inferências. Um componente essencial desses recursos é a memória da unidade central de processamento (CPU). Uma CPU costuma ser chamada de hub ou centro de controle de um computador. Quando um modelo se prepara para aplicar o que sabe (dados de treinamento) e gerar uma resposta, ele deve consultar os dados que estão na memória da CPU. 
     
  • Custos: os elementos que viabilizam a inferência de IA não são baratos. Seja seu objetivo escalar ou fazer a transição para um hardware moderno com suporte a IA, os recursos necessários para implementar a solução completa podem ser significativos. À medida que o modelo se torna mais complexo e o hardware continua a evoluir, os custos podem aumentar acentuadamente, tornando difícil para as organizações acompanharem as inovação em IA.  

O vLLM, um servidor de inferência que acelera a produção de aplicações com IA generativa, é uma solução para enfrentar esses desafios.

O que é vLLM?

O Red Hat AI é um portfólio de soluções e serviços que pode ajudar sua empresa em qualquer etapa da jornada de IA, não importa se você está no início ou com tudo pronto para escalar na nuvem híbrida. Ele pode viabilizar iniciativas de IA generativa e preditiva para casos de uso exclusivos da sua empresa.

Conheça o Red Hat AI

O Red Hat AI ajuda a acelerar o time to market e reduzir as limitações financeiras e de recursos para plataformas de IA. Ele permite ajustar de forma eficiente modelos pequenos voltados para tarefas específicas, com a flexibilidade de implantá-los diretamente no local onde seus dados estão armazenados.

O Red Hat AI é baseado em tecnologias open source e em um ecossistema de parceiros que priorizam desempenho, estabilidade e compatibilidade com GPUs em diversas infraestruturas.

Leia o press release sobre nossa aquisição da Neural Magic 

Em resumo

Red Hat anuncia acordo definitivo para aquisição da Neural Magic

Red Hat anunciou hoje que assinou um acordo definitivo para adquirir a Neural Magic, pioneira em software e algoritmos que aceleram cargas de trabalho de inferência de IA generativa (gen AI).

Inteligência artificial da Red Hat

Assuma o controle do seu futuro utilizando as plataformas open source da Red Hat para criar, implantar e monitorar modelos e aplicações de IA.

Leia mais

O que é ajuste fino de parâmetros com eficiência (PEFT)?

O PEFT é um conjunto de técnicas que ajusta apenas uma parte dos parâmetros em um LLM para economizar recursos.

LoRA e QLoRA

A adaptação de baixa classificação (LoRA) e a adaptação quantizada de baixa classificação (QLoRA) são técnicas de treinamento de modelos de IA.

O que é vLLM?

O vLLM é uma coleção de códigos open source que ajuda os modelos de linguagem a realizar cálculos com mais eficiência.

IA/ML: leitura recomendada