Modelos de lenguaje pequeños: ¿qué son y qué importancia tienen para las FSI?

5 de febrero de 2025Rodrigo Freire, Thiago Araki4 minutos de lectura

El año pasado, mientras asistía a Febraban Tech 2024, un evento organizado por la industria de servicios financieros en América Latina, nos llamó la atención saber que el 96 % de los bancos encuestados tienen iniciativas de inteligencia artificial (IA). Nos preguntamos cuántos serían los bancos que efectivamente están sacando provecho de las iniciativas de IA, cómo podrían las empresas de servicios financieros (FSI) aprovechar lo que los modelos de lenguaje pequeños pueden ofrecerles y si se podrían aplicar estas ventajas en otro ámbito que no sea el de los servicios financieros.

¿Qué son los modelos de lenguaje pequeños?

Uno de los aspectos clave de un modelo de IA es la cantidad de parámetros que se utilizan para entrenar un modelo determinado. A la hora de explorar modelos, observaremos que esta cifra asciende a miles de millones por cada modelo. Cuanto mayor sea el valor, más nutrido será el aprendizaje y más avanzada su capacidad para manejar tareas lingüísticas más complejas. Ahora bien, ¿cuanto más grande, mejor? Eso depende. Si debiéramos personalizar un modelo de cientos de miles de millones de parámetros, necesitaremos una capacidad informática y de GPU considerable (medido en días o semanas) para realizar una sola ronda de entrenamiento de ese modelo.

Un modelo de lenguaje pequeño (SLM) es un modelo que puedes personalizar o ajustar con tus propios datos en un plazo de tiempo razonable con el hardware del cual ya dispones (suponiendo que cuentas con recursos informáticos acelerados o acceso a una nube adecuada).

Si investigas los modelos de IA por tu cuenta, verás que algunos ofrecen variantes de parámetros del modelo base. Por ejemplo, la familia de modelos Granite 3.1 ofrece variantes de parámetros que van desde menos de mil millones hasta 34 mil millones. Sugerimos comenzar con variantes de menor tamaño a fin de ir conociendo las capacidades de un modelo y ampliarlo si fuera necesario, para luego descubrir las mejoras (si las hubiera) que podría proporcionar un modelo de parámetros más amplios. Un modelo más pequeño te permitirá comenzar más rápido y ajustarlo en un período de tiempo razonable.

Los SLM en los servicios financieros

Mientras investigábamos este tema, nos topamos con un artículo de Drew Breunig muy interesante. En él, Breunig divide la IA en tres casos de uso principales: dioses, pasantes y engranajes. El caso de “dios” es la IA que reemplaza por completo a los seres humanos o la inteligencia artificial general (IAG), a la que actualmente se destinan muchos fondos e investigación; los “pasantes” generan un contenido muy bueno, pero cuya precisión y adecuación hay que revisar; y, por último, los “engranajes” (donde ubico a los SLM) son modelos diseñados específicamente con una baja tasa de error que les permite funcionar sin supervisión y en un ámbito en el que los usuarios pueden lograr grandes ahorros de costos.

Las pruebas, el desarrollo de códigos, las pruebas de estrés y los pronósticos son fuertes candidatos para la IA de tipo "pasante". Los casos especializados y con márgenes de error reducidos en la industria de servicios financieros, como la atención al cliente, la hiper personalización, la detección de fraudes y el tratamiento de documentos, son candidatos naturales para los modelos de “engranajes” específicos y especializados. En principio, estas tareas no son exclusivas de la industria financiera, así que no hay duda de que otros sectores también podrán aprovechar los engranajes basados en SLM de manera similar.

Beneficios de los SLM

¿Hay interés en modelos de IA más grandes y complejos? Claro que sí. Este tipo de modelos puede ser útil para mecanismos de supervisión, modelos básicos de evaluación/entrenamiento o donde se desea contar con un conocimiento general amplio. Sin embargo, estos modelos pueden conllevar sus propios costos, complejidad y requisitos.

En lugar de adoptar un enfoque para la IA monolítico y apostar todo a un único modelo de lenguaje de gran tamaño (LLM), las organizaciones deberían tener en cuenta una solución compuesta de modelos específicos, incluso hasta una combinación de SLM o LLM. Sería sumamente interesante si pudiéramos asociar estos modelos con aplicaciones de TI tradicionales o nativas de la nube existentes, lo cual generaría un flujo de trabajo interconectado en toda la nube híbrida.

Un conjunto de SLM específicos puede ayudar a:

mejorar el nivel de seguridad del contenido al poder controlar todos los aspectos del modelo,
acelerar la innovación a través del ajuste fino,
segregar el acceso mediante la implementación de accesos por modelo a los sistemas back-end,
mejorar el control de calidad al controlar las versiones de cada uno de los modelos,
gestionar los costos y garantizar la eficiencia al disminuir el tiempo de entrenamiento de un modelo.

La buena noticia es que ya existen herramientas open source para experimentar y crear tus propios SLM. Recomiendo probar InstructLab, un proyecto innovador desarrollado por IBM y Red Hat que proporciona herramientas de alineación de modelos que ayudan a las organizaciones a contribuir habilidades y conocimientos a sus modelos de IA general de manera más eficiente para así atender las necesidades de sus aplicaciones y negocios basados en IA.

Hay muchos aspectos ventajosos de los SLM, no solo para la industria de servicios financieros, sino para la comunidad empresarial en su conjunto. Puedes explorar las opciones disponibles y personalizar y ajustar un modelo de IA que sirva a tus propósitos con las herramientas open source y los modelos con licencia open source. Pruébalo y tal vez descubras cómo usar tus propios SLM puede ayudarte a resolver los problemas de tu empresa.

Sobre los autores

Rodrigo Freire

Chief Architect

Rodrigo is a tenured professional with a distinguished track record of success and experience in several industries, especially high performance and mission critical environments in FSI. A negotiator at his heart, throughout his 20+ year career, he has leveraged his deep technical background and strong soft skills to deliver exceptional results for his clients and organizations - often ending in long-standing relationships as a trusted advisor. Currently, Rodrigo is deep diving on AI technology.

Read full bio

Thiago Araki

Senior Director, Latin America Technology Sales

Thiago Araki is Red Hat's Senior Director of Tech Sales in Latin America. He is responsible for defining the portfolio strategy, simplifying the adoption of emerging technologies by the market, and supporting organizations in their digital transformation process.

He joined Red Hat in 2013 as a Solutions Architect. Previously, he worked as a Systems Designer at Digitel. He was also a consultant at Accenture where he carried out business transformation projects for large Brazilian companies and designed the financial and management information systems at major Brazilian banks.

He has extensive experience in the IT industry as a Product Marketing Manager, Consultant and Solutions Architect, backed by more than 20 years working in leading companies and participating in major transformation projects.

Read full bio

Más como éste

Publicación en blog

Obtenga más información

Navegar por canal

Explore todos los canales

Modelos de lenguaje pequeños: ¿qué son y qué importancia tienen para las FSI?

¿Qué son los modelos de lenguaje pequeños?

Los SLM en los servicios financieros

Beneficios de los SLM

Dé sus primeros pasos con InstructLab hoy mismo

Sobre los autores

Rodrigo Freire

Thiago Araki

Más como éste

Obtenga más información

Navegar por canal

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links