¿Qué son los modelos de lenguaje pequeños (SLM)?
Un modelo de lenguaje pequeño (SLM) es una versión reducida de un modelo de lenguaje de gran tamaño (LLM) que tiene más conocimientos especializados, se personaliza más rápido y es más eficiente durante su ejecución.
Los SLM se entrenan para especializarse en un área, mientras que los LLM contienen amplios conocimientos generales. Debido a su menor tamaño, los SLM requieren menos recursos informáticos para su entrenamiento e implementación, lo que disminuye los costos de infraestructura y permite perfeccionarlos más rápido. La estructura ligera de los SLM les permite funcionar perfectamente en dispositivos del extremo de la red y en aplicaciones móviles.
Diferencias entre los SLM y los LLM
Los SLM y los LLM son dos tipos de sistemas de inteligencia artificial que se entrenan para interpretar el lenguaje humano, incluidos los lenguajes de programación. Las diferencias principales entre ambos radican en el tamaño de los conjuntos de datos que se utilizan para entrenarlos, los procesos empleados para esa tarea y los costos y los beneficios de implementarlos para distintos casos prácticos.
Como sus nombres lo indican, ambos modelos se entrenan con conjuntos de datos basados en el lenguaje, lo cual los distingue de aquellos entrenados con imágenes (como DALL-E) o videos (como Sora). Algunos ejemplos de conjuntos de datos basados en el lenguaje son textos de páginas web, códigos de desarrolladores, correos electrónicos y manuales.
Una de las aplicaciones más populares de estos modelos es la inteligencia artificial generativa, que puede generar (por eso su nombre) respuestas de contenido sin guion para muchas consultas diferentes e impredecibles. En particular, los LLM adquirieron notoriedad entre los usuarios gracias al modelo base GPT-4 y a ChatGPT, un chatbot conversacional que se entrena con conjuntos de datos gigantescos y billones de parámetros para responder a una gran variedad de consultas de los usuarios. Si bien la inteligencia artificial generativa es muy conocida, también hay aplicaciones no generativas de los LLM y los SLM, como la inteligencia artificial predictiva.
Los SLM y los LLM suelen entrenarse con conjuntos de datos diferentes
El alcance de GPT-4 y ChatGPT ilustra a la perfección una diferencia común entre los LLM y los SLM: los conjuntos de datos con los que se entrenan.
Por lo general, los LLM están pensados para imitar la inteligencia humana en un sentido muy amplio, por lo que se entrenan con una gran variedad de conjuntos de datos. En el caso de GPT-4 y ChatGPT, esto incluye todo el Internet público hasta una fecha determinada. Esto explica que ChatGPT haya adquirido una gran notoriedad por interpretar y responder a una amplia gama de consultas de distintos usuarios. Sin embargo, también llamó la atención por sus posibles respuestas incorrectas (denominadas "alucinaciones" en el lenguaje coloquial), ya que carece del entrenamiento y el perfeccionamiento adecuados para responder con precisión a cualquier consulta específica de un sector o ámbito concreto.
Por otro lado, los SLM suelen entrenarse con conjuntos de datos más pequeños y adaptados a ámbitos específicos de un sector (es decir, áreas de especialización). Por ejemplo, un proveedor de servicios de atención médica podría utilizar un chatbot basado en un SLM que se haya entrenado con conjuntos de datos médicos para introducir conocimientos específicos del área en la consulta de un usuario no experto sobre su salud, lo cual mejoraría la calidad de la pregunta y la respuesta. En este supuesto, no es necesario entrenar al chatbot con todo el contenido de Internet (cada publicación de blog, novela de ficción o poema que exista) porque es irrelevante para el caso práctico en cuestión.
Para resumir, en comparación con los LLM, los SLM suelen destacarse en áreas específicas, pero presentan más dificultades en lo que respecta a los conocimientos generales y la comprensión del contexto global.
Recursos de Red Hat
Los LLM y los SLM requieren recursos diferentes
En el entrenamiento de modelos, tanto LLM como SLM, para casos prácticos empresariales, se utiliza una gran cantidad de recursos, en especial en el caso de los LLM. En el caso de GPT-4, se ejecutaron un total de 25 000 GPU NVIDIA A100 de manera simultánea y sin interrupciones durante un período de 90 a 100 días. GPT-4 es uno de los LLM más voluminosos; otros, como Granite, necesitaron menos recursos. Aunque es probable que el entrenamiento de un SLM también consuma muchos recursos informáticos, la cifra siempre será muy inferior a la que requieren los LLM.
Recursos necesarios para el entrenamiento y la inferencia
También es importante tener en cuenta la diferencia entre el entrenamiento y la inferencia de un modelo. Como decíamos, el entrenamiento es el primer paso en el desarrollo de un modelo de inteligencia artificial, mientras que la inferencia es el proceso mediante el cual ese modelo entrenado realiza predicciones a partir de los datos nuevos. Por ejemplo, cuando un usuario formula una pregunta a ChatGPT, se invoca al programa para que le devuelva una predicción. A ese proceso se lo denomina "inferencia".
Algunos LLM entrenados previamente, como la gama de Granite, pueden realizar inferencias con los recursos de una única estación de trabajo de alta potencia (p. ej., los modelos de Granite se adaptan a una GPU 2 V100 de 32GB), aunque muchos requieren varias unidades de procesamiento en paralelo para generar datos. Además, cuanto mayor es la cantidad de usuarios simultáneos que acceden a un LLM, más lentas son las inferencias que este ejecuta. Por otro lado, los SLM suelen diseñarse para que puedan realizar inferencias con los recursos de un teléfono inteligente u otro dispositivo móvil.
La inferencia de inteligencia artificial a gran escala
Para que la inferencia funcione a gran escala, entran en juego varios factores. En esencia, depende de que los elementos de tu infraestructura trabajen de manera conjunta y eficiente.
Específicamente, los servidores de inferencia compatibles con los modelos de inteligencia artificial de mayor tamaño (como los LLM) y sus funciones de inferencia más complejas son esenciales para ampliar las cargas de trabajo de inteligencia artificial en la empresa.
Estas herramientas de inteligencia artificial son más eficientes a la hora de utilizar los recursos para realizar inferencias según sea necesario y con mayor rapidez:
- llm-d: Las peticiones de los LLM pueden ser complejas y dispares. Por lo general, requieren muchos recursos informáticos y almacenamiento para procesar grandes volúmenes de datos. El llm-d es un marco de inteligencia artificial open source que permite que los desarrolladores apliquen técnicas como la inferencia distribuida para responder a las crecientes exigencias de los modelos de razonamiento cada vez más grandes y sofisticados, como los LLM.
- Inferencia distribuida: La inferencia distribuida permite que los modelos de inteligencia artificial procesen las cargas de trabajo de manera más eficiente al dividir la tarea de inferencia entre un grupo de dispositivos interconectados. Se puede interpretar como el equivalente en software del dicho "dos cabezas piensan mejor que una".
- vLLM: El modelo virtual de lenguaje de gran tamaño (vLLM) es una biblioteca de código open source que gestiona su propia comunidad. Permite que los modelos de lenguaje de gran tamaño (LLM) realicen cálculos a gran escala de manera más eficiente. Permite que empresas como LinkedIn, Roblox y Amazon agilicen sus funciones de inferencia.
Ventajas de los SLM
No existe un modelo que sea mejor que el otro, pero sí uno que se adapta mejor a los planes, los recursos, la experiencia, el tiempo y otros factores específicos de la empresa. Además, es importante decidir si tu caso práctico requiere entrenar un modelo desde cero o perfeccionar uno ya entrenado. Estos son algunos aspectos que se deben tener en cuenta al elegir entre los LLM y los SLM:
Costo
En general, los recursos que necesitan los LLM para el entrenamiento, el perfeccionamiento y la ejecución de inferencias son muchos más. Sin embargo, es importante destacar también que el entrenamiento no es una inversión tan frecuente, ya que los recursos informáticos solo se utilizan mientras se entrena el modelo, lo cual es una tarea esporádica, nunca permanente. Sin embargo, la ejecución de inferencias genera un costo corriente, cuya demanda puede aumentar a medida que se amplía el uso del modelo a más usuarios. En la mayoría de los casos, esto requiere el empleo de recursos informáticos en la nube según sea necesario, una inversión significativa en recursos en las instalaciones, o ambas opciones.
Los SLM se evalúan con frecuencia para casos prácticos de baja latencia, como el edge computing. Esto se debe a que suelen ejecutarse con los recursos disponibles en un único dispositivo móvil sin necesidad de disponer de una conexión sólida y estable a recursos más importantes.
Experiencia
Muchos de los principales LLM entrenados previamente (como Granite, Llama y GPT-4) ofrecen una opción más sencilla para dar los primeros pasos con la inteligencia artificial. A menudo, son las alternativas que se recomiendan para aquellas empresas que desean iniciarse en el uso de esta tecnología, ya que no es necesario que los analistas de datos las diseñen y entrenen desde cero. En cambio, los SLM suelen requerir conocimientos especializados en el ámbito del análisis de datos y del sector para realizar ajustes precisos en conjuntos de datos específicos.
Seguridad
Unos de los posibles riesgos de los LLM es la divulgación de información confidencial a través de las interfaces de programación de aplicaciones (API). Por lo tanto, al perfeccionar un LLM con los datos de tu empresa, deberás cumplir estrictamente la normativa y la política empresarial. Por su parte, los SLM pueden presentar un menor riesgo de filtración de datos porque ofrecen un mayor grado de control.
Limitaciones de los SLM
Es fundamental conocer las limitaciones de los SLM a medida que las empresas los integran a sus flujos de trabajo.
Sesgo
Los SLM se entrenan con conjuntos de datos más pequeños, por lo que resulta más sencillo reducir los sesgos que inevitablemente se producirán. No obstante, al igual que sucede con los modelos de lenguaje de cualquier tamaño, es posible que se produzcan sesgos, como la falta de representación o la representación errónea de determinados grupos e ideas, o bien ciertas imprecisiones sobre los hechos. Los modelos de lenguaje también pueden heredar sesgos relacionados con el dialecto, la ubicación geográfica y la gramática.
Los equipos deben prestar especial atención a la calidad de los datos de entrenamiento para evitar los resultados sesgados.
Alcance limitado de los conocimientos
Los SLM disponen de menos información para generar respuestas, por lo que son un recurso ideal para tareas específicas, pero menos adecuado para tareas que requieren una gran variedad de conocimientos generales.
Por lo tanto, los equipos pueden crear un conjunto de SLM específicos para utilizarlos junto con uno o varios LLM. En este caso, si pueden combinar los modelos con las aplicaciones que ya poseen y generar un flujo de trabajo interconectado de varios modelos de lenguaje trabajando en conjunto, tendrán una solución muy efectiva.
Casos prácticos de los SLM
La capacidad de adaptación de los SLM es una ventaja para distintos casos prácticos.
Chatbots
Utiliza los SLM para entrenar chatbots en contenido especializado. Por ejemplo, se puede entrenar un chatbot de atención al cliente con conocimientos específicos de una empresa para que responda preguntas y brinde información a los usuarios.
Inteligencia artificial con agentes
Integra los SLM a un flujo de trabajo de inteligencia artificial con agentes (Agentic AI) para que completen tareas que le pida un usuario.
Inteligencia artificial generativa
Los SLM pueden realizar tareas como generar, traducir o resumir texto.
Red Hat puede ayudarte
Red Hat AI es una plataforma de productos y servicios que ayudan a tu empresa en cualquier etapa del proceso de adopción de la inteligencia artificial, independientemente de si estás comenzando o ya puedes expandirla. Respalda las iniciativas de inteligencia artificial generativa y predictiva para los casos prácticos exclusivos de tu empresa.
Con esta herramienta, tienes acceso a Red Hat® AI Inference Server para optimizar la inferencia de los modelos en toda la nube híbrida y lograr que las implementaciones sean más rápidas y rentables. Al estar impulsado por vLLM, el servidor de inferencia aprovecha al máximo el uso de la GPU y facilita tiempos de respuesta más rápidos.
Red Hat AI Inference Server incluye el repositorio de Red Hat AI, un conjunto de modelos de terceros optimizados y validados que fomentan la flexibilidad y la uniformidad entre los equipos. Con el acceso a este repositorio, las empresas pueden agilizar el tiempo de comercialización y reducir los obstáculos financieros que dificultan la adopción de la inteligencia artificial.
El blog oficial de Red Hat
Obtenga la información más reciente sobre nuestro ecosistema de clientes, socios y comunidades.