¿Qué es la IA generativa?
La inteligencia artificial generativa es un tipo de tecnología de inteligencia artificial que se basa en modelos de deep learning (aprendizaje profundo) para crear contenido nuevo.
Las aplicaciones que la utilizan pueden producir textos, imágenes, código y mucho más. Esto se lleva a cabo durante la inferencia de la inteligencia artificial, que es la fase operativa en la cual el modelo toma lo que aprendió en el entrenamiento y lo aplica en situaciones reales. Los casos prácticos más comunes son los chatbots, la creación y la edición de imágenes, la asistencia para la creación de código de software y la investigación científica.
La inteligencia artificial generativa también se utiliza en los entornos profesionales para visualizar las ideas creativas con rapidez y ejecutar de forma eficiente las tareas tediosas y que llevan mucho tiempo. En áreas como la investigación médica y el diseño de productos, permite que los especialistas trabajen mejor y mucho más rápido. Sin embargo, también presenta riesgos nuevos que los usuarios deben conocer y disminuir.
Funcionamiento de la inteligencia artificial generativa
Si te has asombrado por la coherencia de las conversaciones con ChatGPT o si alguna vez has proporcionado una descripción a Midjourney para que creara una imagen realista, ya sabes que la inteligencia artificial generativa parece magia. Pero ¿cuál es el truco?
Las aplicaciones de inteligencia artificial se basan en modelos de aprendizaje profundo que recrean los patrones obtenidos de una gran cantidad de datos de entrenamiento Luego, utilizan los conocimientos adquiridos dentro de los parámetros de su entrenamiento para crear algo nuevo.
Los modelos de deep learning no almacenan una copia de los datos de entrenamiento, sino una versión codificada de ellos, en la que están organizados por cercanía según su similitud. Esta representación puede decodificarse para generar datos nuevos y originales, pero con características similares.
El diseño de una aplicación de IA generativa personalizada implica el uso de un modelo y de ajustes, como el perfeccionamiento supervisado o una capa de datos específica para cada caso práctico.
En la actualidad, la mayoría de estas aplicaciones conocidas responden a las indicaciones de los usuarios: solo tienes que describir lo que deseas en lenguaje natural y obtendrás lo que solicitaste como por arte de magia.
Recursos de Red Hat
Algunos casos prácticos de la inteligencia artificial generativa
Los avances de la inteligencia artificial generativa en los textos y las imágenes acapararon los titulares de las noticias y la imaginación de la gente. A continuación, presentamos algunos de los primeros casos prácticos de esta tecnología que avanza rápidamente.
Textos. Incluso antes de que ChatGPT apareciera en todos los titulares (y comenzara a escribirlos por su cuenta), la inteligencia artificial generativa imitaba la escritura humana con gran eficiencia. Entre los primeros casos prácticos de este modelo se encuentran los programas de traducción de idiomas. Las herramientas de inteligencia artificial generativa actuales pueden responder a las instrucciones que requieran la creación de contenido de alta calidad sobre prácticamente cualquier tema, así como adaptarse a los distintos estilos y extensiones de escritura.
Generación de imágenes. Las herramientas de imagen que utiliza esta tecnología pueden responder a las peticiones con imágenes de alta calidad sobre innumerables temas y en diversos estilos. Algunas de ellas, como el relleno generativo de Adobe Photoshop, permiten agregar elementos nuevos a trabajos que ya existían.
Generación de música y voz. Las herramientas de voz que utilizan inteligencia artificial pueden crear narraciones o cantos que simulen la voz humana a partir de grabaciones y textos escritos. Algunas también pueden generar música artificial a partir de instrucciones y muestras.
Generación de video. Las técnicas de inteligencia artificial generativa se están probando en servicios nuevos para crear animaciones gráficas. Por ejemplo, algunos de ellos pueden hacer coincidir un fragmento de audio con una imagen estática y generar un movimiento de la boca y las expresiones faciales para que parezca que la persona está hablando.
Generación de código. Algunas herramientas de inteligencia artificial generativa pueden generar código informático a partir de peticiones escritas para ayudar a los desarrolladores de software que lo soliciten.
Aumento de datos. La inteligencia artificial generativa puede crear una gran cantidad de datos sintéticos cuando no se pueden utilizar datos reales o se prefiere no hacerlo. Por ejemplo, cuando se busca entrenar un modelo que comprenda los datos de salud sin incluir información de identificación personal. También sirven para convertir un grupo pequeño o incompleto de datos en un conjunto de datos sintéticos más amplio con fines de entrenamiento o prueba.
Inteligencia artificial con agentes. La inteligencia artificial con agentes (Agentic AI) y la generativa funcionan en conjunto. Los sistemas de inteligencia artificial con agentes pueden utilizar la inteligencia artificial generativa para conversar con un usuario, crear contenido de forma independiente como parte de un objetivo más amplio o comunicarse con herramientas externas. En otras palabras, la inteligencia artificial generativa es una parte esencial del "proceso cognitivo" de la inteligencia artificial con agentes (Agentic AI).
¿Qué es el deep learning?
El deep learning es la técnica de machine learning (aprendizaje automático) que posibilita la inteligencia artificial generativa y se utiliza para analizar e interpretar grandes cantidades de datos. Este proceso, también conocido como aprendizaje neuronal profundo o red neuronal profunda, consiste en que las computadoras adquieran el aprendizaje a través de la observación, de manera similar a las personas. Es fundamental en el uso de las computadoras para la difícil tarea de comprender el lenguaje humano, conocido como el procesamiento del lenguaje natural (NLP).
Puede ayudar pensar en el aprendizaje profundo como si fuera una especie de diagrama de flujo que comienza con una capa de entrada y termina con una de salida. Entre las dos, se encuentran las "capas ocultas", en las que se procesa la información en distintos niveles y se ajusta y adapta el comportamiento a medida que se reciben datos nuevos de forma permanente. Los modelos de deep learning pueden tener cientos de capas ocultas, y cada una de ellas cumple una función en el descubrimiento de las relaciones y los patrones dentro del conjunto de datos.
La capa de entrada está compuesta por varios nodos: los datos se incorporan al modelo y se categorizan según corresponda antes de continuar con el proceso. La ruta de los datos a través de las capas se basa en los cálculos de cada nodo. Los datos atraviesan cada una de las capas, y se recopilan conclusiones durante el proceso, las cuales acabarán por convertirse en la capa de salida o el análisis final.
La unidad de procesamiento de gráficos (GPU) es una de las tecnologías que agilizó el avance del aprendizaje profundo. Si bien su intención original era acelerar la renderización de los gráficos de los videojuegos, es ideal para las cargas de trabajo de deep learning por su eficiencia a la hora de realizar cálculos en paralelo.
Los avances en el tamaño y la velocidad de los modelos de deep learning desencadenaron la ola actual de innovaciones en las aplicaciones de inteligencia artificial generativa.
Las redes neuronales
La red neuronal es una forma de procesar la información que simula las conexiones neuronales biológicas del cerebro. Esta es la manera en que la inteligencia artificial puede establecer conexiones entre conjuntos de datos que no parecieran estar vinculados, y está estrechamente relacionada con el deep learning.
Para comprender la forma en que el aprendizaje profundo aplica el concepto de la red neuronal para conectar los datos, tan solo tienes que pensar en el funcionamiento del cerebro humano. Son muchas neuronas interconectadas que actúan como mensajeras cuando se procesan los datos que se reciben. Las neuronas utilizan impulsos eléctricos y señales químicas para comunicarse entre sí y transmitir la información entre las distintas áreas del cerebro.
Las redes neuronales artificiales (ANN) se basan en este fenómeno biológico, pero se forman con neuronas que se crean a partir de módulos de software denominados nodos. Los nodos utilizan cálculos matemáticos, a diferencia de las señales químicas que se usan en el cerebro, para comunicar y transmitir la información. Esta red neuronal simulada (SNN) procesa los datos agrupándolos en clústeres y realizando predicciones.
Hay diferentes técnicas de red neuronal según el tipo de datos. El modelo de red neuronal recurrente (RNN) utiliza datos secuenciales, como el aprendizaje de palabras en orden para procesar el lenguaje.
Los transformadores parten de la idea de la RNN y son un tipo de arquitectura neuronal específica que puede procesar el lenguaje más rápido. Aprenden sobre las relaciones que guardan las palabras en una oración, lo que resulta más eficiente que la RNN, que incorpora cada palabra en orden secuencial.
Dentro del deep learning, también se encuentra el modelo de lenguaje de gran tamaño (LLM), el cual se entrena utilizando los transformadores en una gran cantidad de datos generalizados. Muchas de las herramientas conocidas de chat y texto de inteligencia artificial se basan en este modelo.
El modelo de difusión, otra técnica que resultó ser útil para la generación de imágenes, que aprende a convertir una imagen natural en un elemento visual difuminado con ruido. Luego, las herramientas generativas de imágenes revierten el proceso: toman un patrón con ruido aleatorio y lo perfeccionan hasta que parezca una imagen real.
Podemos utilizar parámetros para describir los modelos de deep learning. Si se entrena un modelo sencillo de predicción de crédito con diez entradas de un formulario de solicitud de préstamo, tendrás diez parámetros. En cambio, un modelo LLM puede tener miles de millones de parámetros, como es el caso del transformador generativo preentrenado 4 (GPT-4) de OpenAI, uno de los modelos base que utiliza ChatGPT, el cual posee un billón de parámetros, según este informe.
Los modelos base
Se trata de un modelo de aprendizaje profundo que se entrena con una enorme cantidad de datos genéricos y, luego, se perfecciona para casos prácticos específicos. Tal como indica su nombre, puede constituir la base de muchas aplicaciones diferentes.
En la actualidad, crear un modelo base nuevo sería un proyecto de gran envergadura. Para el proceso, se necesita una enorme cantidad de datos de entrenamiento que suelen obtenerse de Internet, las bibliotecas digitales de libros, las bases de datos de artículos académicos, los conjuntos de imágenes genéricas y otros grupos grandes de datos. Para entrenar un modelo con tantos datos, es necesario disponer de una infraestructura inmensa y diseñar o alquilar una nube de GPU. Según los informes, el diseño de los modelos base actuales costó cientos de millones de dólares.
Dado que el entrenamiento de un modelo base desde cero implica un gran esfuerzo, se suele aprovechar alguno ya entrenado, y luego personalizarlo. Existen muchas técnicas para la personalización, como el perfeccionamiento, el ajuste de instrucciones y la incorporación de datos específicos sobre el cliente o el área de especialización. Por ejemplo, los modelos base de Granite de IBM se entrenan con datos seleccionados, por lo cual brindan transparencia a la información que se utiliza para el entrenamiento.
Definición del perfeccionamiento
El proceso consiste en continuar entrenando un modelo ya entrenado con un conjunto de datos más personalizados, de manera que lleve a cabo tareas específicas de forma eficaz. Estos datos adicionales modifican los parámetros del modelo y crean una versión nueva que remplaza al modelo original.
El perfeccionamiento suele ser más rápido y requerir muchísimos menos datos que el entrenamiento inicial. Sin embargo, la versión tradicional de este proceso consume muchos recursos informáticos.
El perfeccionamiento con eficiencia de parámetros (PEFT) es un conjunto de técnicas que permiten ajustar solo una parte de los parámetros de un LLM para utilizar menos recursos. Puede considerarse como la evolución del perfeccionamiento tradicional.
La adaptación de bajo rango (LoRA) y la adaptación de bajo rango cuantificada (QLoRA) son técnicas PEFT para entrenar modelos de inteligencia artificial. Ambas permiten perfeccionar los LLM de manera más eficiente, pero difieren en la forma de manipular el modelo y de utilizar el almacenamiento para lograr los resultados deseados.
¿Qué es la generación aumentada por recuperación?
La generación aumentada por recuperación (RAG) es un método mediante el cual se vincula un LLM a un recurso externo para obtener mejores respuestas de una aplicación de inteligencia artificial generativa.
La implementación de la arquitectura RAG en un sistema de búsqueda de respuestas basado en un LLM (como un chatbot) establece una vía de comunicación entre esos modelos y las fuentes de información adicionales que elijas. Esto permite que el LLM realice referencias cruzadas y complemente su conocimiento interno para que el usuario que formula una consulta obtenga resultados más confiables y precisos.
Velocidad, capacidad de ajuste y ahorro
A medida que los modelos de inteligencia artificial generativa se vuelven más sofisticados, crecen. Algunos LLM pueden contener cientos de miles de millones de parámetros. Los parámetros determinan la forma en que un LLM comprende el lenguaje, por lo que, cuantos más parámetros tenga un modelo, más complejas serán las tareas que podrá realizar con mayor precisión. Sin embargo, una mayor cantidad también requerirá más capacidad de procesamiento.
En lugar de agregar más GPU, que puede ser costoso, puedes usar técnicas como modelos de lenguaje de gran tamaño virtuales (vLLM) y llm-d para que el procesamiento sea más eficiente en el hardware que posees.
- El vLLM es un servidor de inferencia que utiliza mejor la memoria de la GPU para agilizar los resultados de las aplicaciones de inteligencia artificial generativa.
- llm-d es un marco open source desarrollado en Kubernetes que agiliza la inferencia distribuida a gran escala. Ambas herramientas están diseñadas para abordar el desafío de poner a disposición los modelos de inteligencia artificial generativa de gran tamaño en la etapa de producción centrándose en optimizar el rendimiento.
Algunos riesgos de la inteligencia artificial generativa
El gran avance que tuvo la tecnología de la inteligencia artificial generativa en tan poco tiempo suscitó abundantes reacciones, tanto positivas como negativas. Aún estamos en el proceso de conocer sus beneficios y desventajas. Aquí resumimos algunas de las preocupaciones más importantes respecto de la inteligencia artificial generativa.
Puede utilizarse con fines perjudiciales. Existen riesgos inmediatos y lógicos asociados al uso de las herramientas de inteligencia artificial generativa con fines maliciosos, como las grandes campañas de desinformación en las redes sociales o las imágenes completamente falsas y generadas sin consentimiento que apuntan a dañar la reputación de personas reales.
Puede reforzar los prejuicios de la sociedad. Las herramientas de inteligencia artificial generativa demostraron que pueden sacar a relucir los prejuicios presentes en los datos de entrenamiento, tales como los estereotipos negativos y los discursos de odio.
Puede generar información incorrecta. Las herramientas de inteligencia artificial generativa pueden generar información y panoramas inventados y totalmente erróneos, que suelen denominarse "alucinaciones". A veces, el contenido erróneo es inofensivo, como una respuesta sin sentido en el chat o la imagen de una mano con dedos de más. Pero ha habido casos de mayor gravedad, como cuando un chatbot dio recomendaciones peligrosas a algunas personas que hicieron consultas sobre trastornos alimentarios.
Riesgos legales y de seguridad. Los sistemas de inteligencia artificial generativa pueden traer aparejados riesgos de seguridad, como cuando los usuarios ingresan información confidencial en aplicaciones sin protección. Las respuestas de estas herramientas también pueden causar riesgos legales cuando reproducen contenido protegido por derechos de autor o se apropian de la voz o la identidad de una persona real sin su consentimiento. Además, algunas de ellas tienen restricción de uso.
Resultados inexplicables. A veces, un modelo de inteligencia artificial es demasiado complejo para que una persona lo entienda o lo interprete. Esto se denomina modelo de caja negra. Puede tener consecuencias negativas cuando se utiliza para la toma de decisiones importantes, en especial en los sectores de alto riesgo, como el de la salud, el de transporte, el de la seguridad, el militar, el jurídico, el aeroespacial, el de justicia penal o el financiero. Para resolver este problema, se pueden aplicar técnicas de inteligencia artificial explicable (XAI) en todo el ciclo de vida del machine learning para que los resultados sean más transparentes y comprensibles para las personas.
Red Hat puede ayudarte
Red Hat AI es una plataforma de productos y servicios que ayudan a tu empresa en cualquier etapa del proceso de adopción de la inteligencia artificial, independientemente de si estás comenzando o ya puedes expandirla. Respalda las iniciativas de inteligencia artificial generativa y predictiva para los casos prácticos exclusivos de tu empresa.
Con esta herramienta, tienes acceso a Red Hat® AI Inference Server para optimizar la inferencia de los modelos en toda la nube híbrida y lograr que las implementaciones sean más rápidas y rentables. El servidor de inferencia está impulsado por los vLLM y aprovecha al máximo la GPU, además de permitir los tiempos de respuesta más rápidos.
Red Hat AI Inference Server incluye el repositorio de Red Hat AI, un conjunto de modelos optimizados y validados por terceros que fomentan la flexibilidad y la uniformidad entre los equipos. Con el acceso a este repositorio, las empresas pueden agilizar el tiempo de comercialización y reducir los obstáculos financieros que dificultan la adopción de la inteligencia artificial.
El blog oficial de Red Hat
Obtenga la información más reciente sobre nuestro ecosistema de clientes, socios y comunidades.