O que é IA generativa?
IA generativa é um tipo de tecnologia de inteligência artificial que se baseia em modelos de deep learning para criar novos conteúdos.
As aplicações de IA generativa podem produzir textos, imagens, código e muito mais. Isso é alcançado durante a inferência de IA, a fase operacional da IA, onde o modelo aplica o que aprendeu no treinamento em situações reais. Casos de uso comuns para IA generativa incluem chatbots, criação e edição de imagens, assistência para código de software e pesquisa científica.
A IA generativa também é usada em ambientes profissionais para logo visualizar ideias criativas e lidar eficientemente com tarefas tediosas e demoradas. Em áreas como pesquisa médica e design de produtos, a IA generativa pode ajudar os profissionais a trabalhar melhor e mais rápido. No entanto, a IA generativa também introduz novos riscos, que devem ser compreendidos e minimizados pelos usuários.
Como a IA generativa funciona?
Se você já teve uma conversa surpreendentemente coerente com o ChatGPT ou viu o Midjourney renderizar uma imagem realista a partir de uma descrição que você havia acabado de inventar, sabe que a IA generativa parece magia. O que está por trás dessa magia?
Nos bastidores das aplicações de IA que você usa, modelos de deep learning estão recriando padrões aprendidos a partir de uma quantidade enorme de dados de treinamento. Depois disso, elas trabalham em parâmetros construídos por humanos para criar algo novo com base no que aprenderam.
Os modelos de deep learning não armazenam uma cópia exata dos dados de treinamento, mas sim uma versão codificada deles na qual pontos similares são organizados próximos uns dos outros. Essa representação pode ser decodificada para construir dados novos e originais com características semelhantes.
Desenvolver uma aplicação de IA generativa personalizada exige um modelo, além de ajustes finos supervisionados por humanos ou uma camada de dados específica a um caso de uso.
A maioria das aplicações de IA generativa atuais responde a prompts do usuário. Descreva o que quiser em linguagem natural e a aplicação retornará o que você pediu, parecendo mágica.
Acesse a biblioteca de conteúdos da Red Hat
Quais são alguns casos de uso da IA generativa?
A revolução da IA generativa em textos e imagens dominou as manchetes e a imaginação das pessoas. Confira alguns dos primeiros casos de uso dessa tecnologia que avança rapidamente.
Escrita: mesmo antes do ChatGPT dominar as manchetes dos jornais (e começar a escrever as suas próprias notícias), sistemas de IA generativa já eram bons em imitar a escrita humana. Ferramentas de tradução de idiomas estão entre os primeiros casos de uso de modelos de IA generativa. Atualmente, modelos de IA generativa são capazes de responder a prompts para a criação de conteúdo de alta qualidade sobre praticamente qualquer assunto. Essas ferramentas também podem adaptar seus textos para diferentes tamanhos e estilos de escrita.
Geração de imagens: as ferramentas de imagem de IA generativa sintetizam fotos de alta qualidade em resposta a prompts de vários assuntos e estilos. Algumas ferramentas de IA podem adicionar novos elementos a trabalhos já existentes, como o Generative Fill no Adobe Photoshop.
Geração de discurso e músicas: usando textos escritos e amostras de áudio com a voz de alguém, as ferramentas vocais de IA podem criar uma narração ou uma canção que imita os sons de pessoas reais. Outras ferramentas podem criar músicas artificiais a partir de prompts ou amostras.
Geração de vídeos: novos serviços estão fazendo experimentos com várias técnicas de IA generativa para criar animações. Por exemplo, é possível combinar um áudio com uma imagem estática e movimentar a boca e a expressão facial de alguém para parecer que estão falando.
Geração e conclusão de código: algumas ferramentas de IA generativa podem receber um prompt por escrito e gerar um código por meio de uma solicitação para ajudar desenvolvedores de software.
Aumento de dados: a IA generativa pode criar uma grande quantidade de dados sintéticos quando o uso de dados reais não for possível ou a melhor escolha. Por exemplo, os dados sintéticos podem ser úteis se você quiser treinar um modelo para ele interpretar dados de saúde sem incluir nenhuma informação pessoalmente identificável. Ela também pode ser usada para expandir um conjunto de dados pequeno ou incompleto e transformá-lo em um conjunto maior de dados sintéticos para fins de treinamento ou testes.
Agentic AI: a Agentic AI e a IA generativa trabalham em colaboração. Sistemas de Agentic AI podem usar a gen IA para conversar com o usuário, gerar conteúdo autonomamente para atender a um objetivo mais amplo ou se comunicar com ferramentas externas. Em outras palavras, a gen IA é parte essencial do processo "cognitivo" da agentic AI.
O que é deep learning?
Deep learning é uma técnica de machine learning utilizada para analisar e interpretar grandes quantidades de dados, tornando a IA generativa possível. Também conhecido como aprendizado neural profundo ou rede neural profunda, esse processo ensina computadores a aprender por meio de observação, imitando a maneira como os humanos adquirem conhecimento. O deep learning é um conceito essencial na aplicação de computadores ao problema de compreensão da linguagem humana, ou processamento de linguagem natural (NLP).
Para visualizar melhor, o deep learning é como se fosse um tipo de fluxograma, começando com uma camada de entrada e terminando com uma camada de saída. Entre essas duas camadas estão as "camadas ocultas", que processam informações em diferentes níveis, ajustando e adaptando seu comportamento à medida que recebem novos dados. Os modelos de deep learning podem ter centenas de camadas ocultas, cada uma delas desempenhando um papel para descobrir relações e padrões dentro de um conjunto de dados.
Começando pela camada de entrada, que é composta por vários nós, os dados são adicionados ao modelo e categorizados de acordo com suas características antes de serem movidos para a próxima camada. O caminho que os dados percorrem através de cada camada se baseia nos cálculos definidos em cada nó. Em algum momento, os dados atravessam cada camada, coletando observações pelo caminho até criar a saída, ou análise final, dos dados.
Uma tecnologia que acelerou o avanço do deep learning foi a GPU, ou unidade de processamento de gráfico. As GPUs foram projetadas originalmente para acelerar a renderização de gráficos de videogames. No entanto, elas se provaram adequadas para cargas de trabalho de deep learning, sendo uma maneira eficiente de realizar cálculos em paralelo
Inovações no tamanho e na velocidade dos modelos de deep learning levaram à onda atual de apps de IA generativa revolucionárias.
O que é uma rede neural?
Uma rede neural é uma maneira de processar informações que imita sistemas neurais biológicos, como as conexões em nosso cérebro. É como a IA pode criar conexões entre conjuntos de informações aparentemente não relacionados. O conceito de uma rede neural está intimamente relacionado ao deep learning.
Como um modelo de deep learning usa o conceito de rede neural para conectar dados? Vamos começar entendendo o funcionamento do cérebro humano. Ele contém diversos neurônios interconectados que atuam como mensageiros quando o cérebro processa informações ou dados recebidos. Esses neurônios usam impulsos elétricos e sinais químicos para se comunicarem e transmitirem informações entre diferentes áreas do cérebro.
A Rede Neural Artificial (RNA) é baseada nesse fenômeno biológico, mas formada por neurônios artificiais criados em módulos de software chamados de nós. Esses nós usam cálculos matemáticos (em vez de sinais químicos, como no cérebro) para se comunicarem e transmitirem informações. Essa Rede Neural Simulada (RNS) processa dados ao agrupar em clusters os pontos de dados e fazer predições.
Existem diferentes técnicas de rede neural adequadas para diferentes tipos de dados. Uma rede neural recorrente (RNN) é um modelo que usa dados sequenciais como uma maneira de processar linguagem, assim como no aprendizado de palavras.
Com base na ideia da RNN, os transformadores são um tipo específico de arquitetura de rede neural capaz de processar linguagem mais rapidamente. Os transformadores aprendem as relações que as palavras têm em uma frase, um processo mais eficiente se comparado com RNNs que processam cada palavra em ordem sequencial.
Um Large Language Model (LLM) é um modelo de deep learning treinado ao aplicar os transformadores a um enorme conjunto de dados generalizados. LLMs potencializam muitas das ferramentas de texto e chat de IA conhecidas.
O modelo de difusão é uma outra técnica de deep learning que se mostrou adequada para a geração de imagens. Esses modelos aprendem o processo de transformar uma imagem natural em um ruído visual distorcido. Em seguida, as ferramentas de imagem generativa assumem o processo e o revertem a partir de um padrão de ruídos aleatório. Elas o redefinem até que se pareça com uma foto realista.
Modelos de deep learning podem ser descritos em parâmetros. Um modelo simples de previsão de crédito treinado com 10 entradas de um formulário de aplicação de empréstimo teria 10 parâmetros. Um LLM pode ter bilhões de parâmetros. O Generative Pre-trained Transformer 4 (GPT-4) da OpenAI, que é um dos modelos fundamentais por trás do ChatGPT, é conhecido por ter 1 trilhão de parâmetros.
O que é um modelo fundamental?
Um modelo fundamental é um modelo de deep learning treinado a partir de uma enorme quantidade de dados genéricos. Depois de treinados, os modelos base podem ser refinados para casos de uso específicos. Como o nome sugere, esses modelos podem ser a base para muitas aplicações diferentes.
Criar um novo modelo base atualmente é um projeto considerável. O processo requer enormes quantidades de dados de treinamento, tipicamente coletados de fragmentos da internet, bibliotecas digitais, bancos de dados de artigos acadêmicos, bancos de imagem ou outros grandes conjuntos de dados. Treinar um modelo com essa quantidade de dados requer uma infraestrutura imensa, incluindo a criação ou aluguel de uma nuvem de GPUs. Os maiores modelos base até o momento custaram centenas de milhões de dólares.
Devido ao alto esforço necessário para treinar um modelo base do zero, é comum usar modelos treinados por terceiros e, em seguida, aplicar a personalização. Existem várias técnicas para personalizar um modelo base. Algumas delas são o ajuste fino, o ajuste de prompt e a adição de dados contextualizados. Por exemplo, os modelos fundamentais da família Granite da IBM são treinados com dados selecionados e oferecem transparência em relação aos dados utilizados no treinamento.
O que é ajuste fino?
O ajuste fino é o processo de incrementar um modelo pré-treinado com um conjunto de dados mais personalizado para ele executar tarefas exclusivas com eficiência. Esses dados de treinamento adicionais modificam os parâmetros do modelo e criam uma nova versão que substitui o modelo original.
O ajuste fino geralmente exige menos dados e tempo do que o treinamento inicial. No entanto, o processo tradicional ainda exige um alto poder de processamento.
O ajuste fino de parâmetros com eficiência (PEFT) é um conjunto de técnicas que modifica apenas uma parte dos parâmetros em um LLM para economizar recursos. É como uma evolução do ajuste fino tradicional.
A adaptação de baixa classificação (LoRA) e a adaptação quantizada de baixa classificação (QLoRA) são técnicas de PEFT para treinamento de modelos de IA. A LoRA e a QLoRA ajudam no ajuste mais eficiente de LLMs, mas diferem na manipulação do modelo e no uso do armazenamento para alcançar os resultados pretendidos.
O que é geração aumentada de recuperação?
A geração aumentada de recuperação (RAG) é um método que permite obter melhores respostas de uma aplicação de IA generativa conectando um LLM a um recurso externo.
Ao implementar uma arquitetura RAG em um sistema de perguntas e respostas baseado em LLM (como, por exemplo, um chatbot), você permite a comunicação entre o LLM e as fontes de conhecimento adicionais que você escolher. Dessa forma, o LLM consegue comparar e complementar seu próprio conhecimento, o que oferece uma saída mais confiável e precisa para o usuário que faz a consulta.
Velocidade, escala e economia
Conforme os modelos de IA generativa se tornam mais sofisticados, eles aumentam de tamanho. Alguns LLMs podem conter centenas de bilhões de parâmetros. Os parâmetros determinam o entendimento de um LLM sobre a linguagem. Além disso, quanto maior a quantidade de parâmetros, mais complexas são as tarefas que um modelo pode executar (com maior precisão). No entanto, um maior número de parâmetros exigem uma maior capacidade de processamento.
Em vez de adicionar mais GPUs (que pode ser caro), você pode usar técnicas como vLLM e llm-d para tornar o processamento mais eficiente no seu hardware.
- O vLLM é um servidor de inferência que acelera as respostas de aplicações de gen IA ao utilizar a memória da GPU com mais eficiência.
- O llm-d é um framework open source nativo do Kubernetes que acelera a inferência distribuída em grande escala. Os dois foram projetados para resolver o desafio de atender a grandes modelos de IA generativa ao focar na otimização do desempenho.
Quais são os riscos da IA generativa?
Com um grande avanço em pouco tempo, a tecnologia de IA generativa atraiu mais atenção do que o normal, tanto de forma positiva quanto negativa. Os benefícios e as desvantagens dessa tecnologia ainda estão sendo descobertos. Aqui nós oferecemos uma breve visão de algumas preocupações mais significativas sobre a IA generativa.
Possibilidade de danos: existe o risco óbvio de agentes mal-intencionados usarem ferramentas de IA generativa para objetivos maliciosos, como campanhas de desinformação em larga escala nas redes sociais ou imagens deepfake não consensuais direcionadas a pessoas reais.
Reforço de preconceitos sociais: foi demonstrado que ferramentas de IA generativa repetem preconceitos humanos presentes nos dados de treinamento, como estereótipos e discursos de ódio.
Informações erradas: essas ferramentas podem produzir informações e cenas inventadas ou simplesmente erradas, às vezes chamadas de "alucinações". Alguns erros no conteúdo gerado são inofensivos, como uma resposta sem sentido a uma pergunta no chat, ou uma imagem de uma mão humana com muitos dedos. Mas já houve casos sérios de erros da IA, como um chatbot que deu um conselho perigoso a pessoas que perguntavam sobre distúrbios alimentares.
Riscos legais e de segurança: sistemas de IA generativa podem representar riscos de segurança, como a entrada de informações sensíveis por usuários em apps que não foram projetados para serem seguros. As respostas da IA generativa podem levar a riscos legais ao reproduzir conteúdo protegido por direitos autorais ou se apropriar da voz ou identidade de uma pessoa real sem o consentimento dela. Além disso, algumas ferramentas de IA generativa podem ter restrições de uso.
Saídas inexplicáveis: às vezes, um modelo de IA é complexo demais para uma pessoa entender ou interpretar, e chamamos isso de modelo de caixa-preta. Esses modelos podem causar consequências graves quando aplicados em decisões de alto impacto, especialmente em setores de risco elevado, como saúde, transporte, segurança, defesa, legal, aeroespacial, justiça criminal e financeiro. Para ajudar a resolver isso, técnicas de IA explicável (XAI) podem ser aplicadas no ciclo de vida de machine learning para tornar as saídas mais transparentes e compreensíveis para os humanos.
Como a Red Hat pode ajudar
O Red Hat AI é um conjunto de soluções e serviços para sua empresa que ajuda em todas as etapas da jornada de IA, desde o começo até a fase de escalabilidade. Ele pode viabilizar iniciativas de IA generativa e preditiva para casos de uso exclusivos da sua empresa.
Com o Red Hat AI, você tem acesso ao Red Hat® AI Inference Server para otimizar a inferência de modelos na nuvem híbrida, garantindo implantações mais rápidas e econômicas. Com a tecnologia vLLM, o servidor de inferência maximiza a utilização da GPU e reduz os tempos de resposta.
O Red Hat AI Inference Server inclui o repositório do Red Hat AI, uma coleção de modelos otimizados e validados que oferece flexibilidade e promove a consistência entre equipes. Com acesso ao repositório de modelos de terceiros, as empresas conseguem acelerar o time to market e reduzir as barreiras financeiras para o sucesso da IA.
Blog da Red Hat
Tudo relacionado à Red Hat: soluções, treinamentos e certificações Red Hat, casos de sucesso de clientes, novidades dos nossos parceiros e notícias sobre projetos das comunidades open source.