Guía sobre los modelos como servicio
La adopción de la inteligencia artificial se está extendiendo, pero los problemas de infraestructura y acceso crean desafíos
El interés en la inteligencia artificial crece rápidamente. Las empresas están ansiosas por utilizar los modelos de lenguaje de gran tamaño (LLM), el análisis predictivo, las funciones de visión y otras herramientas avanzadas para obtener valor empresarial. Sin embargo, trasladar la inteligencia artificial de la experimentación aislada a la adopción generalizada en toda la empresa presenta desafíos operativos y de infraestructura importantes.
Muchas empresas comienzan su proceso de adopción de la inteligencia artificial conectándose a interfaces de programación de aplicaciones (API) de LLM comerciales, como las de OpenAI o Anthropic, pues suponen que es la forma más rápida de llegar a la producción. Sin embargo, a medida que aumenta el uso, aumentan también los costos, y los equipos enfrentan limitaciones en cuanto a la privacidad de los datos, la determinación del estado interno de los sistemas y la personalización. Además, en algunos casos, los proveedores comerciales de inteligencia artificial realizan cambios en los modelos con muy poca antelación, lo que afecta el uso que las empresas hacen de ellos.
En consecuencia, algunas empresas se inclinan por el extremo opuesto: diseñan su propia infraestructura de modelo desde cero. Esta estrategia de "hágalo usted mismo" suele dar lugar a que los equipos implementen modelos open source de forma independiente, como Llama o Mistral, con poca coordinación. El resultado es un entorno fragmentado en el que los grupos crean sus propias stacks, lo que genera una infraestructura redundante, unidades de procesamiento gráfico (GPU) inactivas y una sobrecarga operativa considerable. La seguridad y el control se ven perjudicados, y los costos se disparan sin aportar mucho valor empresarial.
Estos desafíos se ven aún más agravados debido al tamaño cada vez mayor de los LLM recientes, como Llama, DeepSeek, Mistral o Qwen. A diferencia de los modelos de inteligencia artificial de escala relativamente pequeña de hace algunos años, los modelos grandes de hoy en día pueden requerir terabytes de vRAM, y las GPU necesarias son costosas. El uso ineficiente de estos recursos puede disparar los costos de inmediato. La situación empeora cuando varios equipos dentro de la misma empresa intentan implementar estos modelos de forma independiente. Este enfoque fragmentado agrava la sobrecarga operativa y eleva los gastos.
Las empresas necesitan un enfoque interno que agilice y consolide el uso de los modelos, optimice los recursos de hardware y permita el acceso controlado y adaptable de diversos grupos de usuarios internos. Sin este enfoque, se corre el riesgo de que la adopción de las iniciativas de inteligencia artificial sea baja y los gastos operativos sean elevados, de que las inversiones en infraestructura se infrautilicen y de que los resultados medibles, como el aumento de la productividad, la reducción de los costos operativos o la obtención de información más rápida, sigan siendo difíciles de lograr.
¿Qué son los modelos como servicio?
Los modelos como servicio (MaaS) son un enfoque para distribuir modelos de inteligencia artificial como recursos compartidos, lo que permite que los usuarios de una empresa accedan a ellos en función de las necesidades. Ofrecen una base de inteligencia artificial lista para usar, en forma de extremos de interfaz de programación de aplicaciones (API), que fomenta la inteligencia artificial privada y eficiente según sea necesario.
El enfoque de los modelos como servicio para hacer frente a este desafío
Los modelos como servicio (MaaS) son un enfoque que permite que las empresas implementen los modelos de inteligencia artificial una vez y los distribuyan como recursos compartidos y centrados en la seguridad en toda la empresa. En lugar de gestionar implementaciones aisladas para equipos individuales, un enfoque de MaaS ayuda a las empresas a concentrar la infraestructura y las operaciones de inteligencia artificial, lo que simplifica la adopción interna de esta tecnología.
Acceso compartido a la inteligencia artificial con operaciones unificadas de los modelos
- Para los ingenieros de inteligencia artificial, MaaS proporciona un acceso más rápido a los modelos de alto rendimiento a través de las API, lo que elimina la necesidad de descargar los modelos, gestionar las dependencias o solicitar asignaciones de GPU a través de solicitudes de seguimiento de incidentes de TI extensas.
El MaaS funciona estableciendo un equipo de operaciones de inteligencia artificial como el propietario central de los recursos de inteligencia artificial compartidos. Los modelos se implementan en una plataforma flexible (como Red Hat® OpenShift® AI u otras similares) y, luego, se exponen a través de una puerta de enlace de API. Esta configuración permite que varios usuarios, desarrolladores y unidades comerciales ofrezcan acceso simplificado a los usuarios finales y, al mismo tiempo, cumplan con las prioridades de seguridad y control de los equipos de TI y finanzas. Esta priorización puede incluir funciones de devolución de cargos y la posibilidad de utilizar modelos sin necesidad de tener acceso directo al hardware ni conocimientos técnicos especializados. El objetivo es proporcionar un acceso sencillo a los modelos de inteligencia artificial y no a los recursos necesarios para ejecutarlos, como las GPU y las unidades de procesamiento tensorial (TPU). Todo esto sin dejar de cumplir con los requisitos de cumplimiento y rendimiento de la empresa, y sin comprometer el acceso de los usuarios finales.
En la práctica, los usuarios solo interactúan con las API que ofrecen respuestas generadas por los modelos. Así como los proveedores públicos de inteligencia artificial eliminan las complejidades del hardware de los usuarios finales, las implementaciones internas de MaaS ofrecen la misma sencillez. Los usuarios no gestionan la infraestructura de hardware o software directamente, no esperan a que se resuelva una solicitud de seguimiento de incidentes en su nombre ni se quedan al margen mientras se configura un entorno para ellos. En su lugar, los equipos de operaciones de TI e inteligencia artificial gestionan el ciclo de vida del modelo, la seguridad, las actualizaciones y el ajuste de la infraestructura desde un solo lugar, lo que ofrece a los usuarios un acceso optimizado pero controlado.
Esta unificación no solo optimiza las operaciones internas de inteligencia artificial, sino que también mejora el enfoque y el control de la seguridad. El acceso a los modelos de inteligencia artificial se controla estrictamente mediante la gestión de credenciales a través de una puerta de enlace de API. Las empresas pueden realizar un seguimiento del uso, configurar los mecanismos internos de devolución de cargos, asegurarse de que se sigan las pautas de cumplimiento normativo de privacidad y establecer límites operativos claros sin problemas, lo que hace que la inteligencia artificial empresarial sea manejable y práctica. El seguimiento del uso de los tokens (de entrada y de salida) es el método más preciso y detallado, y mucho más exacto que cualquier indicador de la GPU.
Control del uso, limitación del acceso y gestión de los costos
- Los ingenieros de TI y plataformas se benefician de la supervisión unificada, que evita las implementaciones no autorizadas de modelos, aplica estándares de seguridad y cumplimiento, y simplifica la gestión del ciclo de vida y de la infraestructura.
- Para los equipos de finanzas, el seguimiento concentrado del uso y los mecanismos internos de devolución de cargos reducen el desperdicio y hacen que el uso de la GPU sea más predecible y transparente. Esto ayuda a evitar gastos excesivos debido a la infrautilización de las asignaciones de hardware por equipo.
En un MaaS, el control se obtiene principalmente a través de la integración de una puerta de enlace de API a la infraestructura de inteligencia artificial, lo que permite que los equipos gestionen y supervisen el uso de la inteligencia artificial con gran detalle.
Las implementaciones tradicionales de inteligencia artificial suelen carecer de gestión o ser ineficientes, ya que las personas o los equipos implementan los modelos de forma independiente sin una supervisión unificada. Este enfoque fragmentado puede generar ineficiencias costosas, con recursos de GPU inactivos o infrautilizados. Al colocar una puerta de enlace de API en el centro de la infraestructura de inteligencia artificial, se crea un punto de acceso controlado entre los usuarios y los modelos.
Esta configuración facilita el seguimiento preciso del uso, hasta el nivel de token individual. Los equipos pueden identificar claramente cuánto consume cada usuario, equipo o aplicación, y atribuir los costos de la GPU y la infraestructura con precisión. Por ejemplo, las empresas pueden determinar si un usuario o una aplicación en particular está utilizando los recursos de manera excesiva y tomar medidas correctivas, como limitar el uso o asignar costos a través de mecanismos internos de devolución de cargos.
Las funciones de limitación que ofrece la puerta de enlace de API garantizan un rendimiento uniforme y evitan el agotamiento de los recursos. La limitación del uso permite que los equipos de TI gestionen la intensidad de los accesos, lo cual evita que un solo usuario monopolice los recursos de la GPU o afecte el rendimiento de los demás usuarios.
Además, las puertas de enlace de API ofrecen control de acceso y gestión de credenciales detallados. Los usuarios internos pueden generar credenciales para acceder a los modelos de inteligencia artificial de forma independiente, lo cual simplifica las tareas administrativas. Las credenciales también se pueden revocar o modificar en menos tiempo para responder a los cambios en los requisitos de seguridad o los patrones de uso.
Como resultado, se logra una mayor transparencia en la gestión de costos y una rendición de cuentas más clara. Los equipos de TI pueden asignar los gastos de GPU e infraestructura con precisión a los equipos o las unidades comerciales que los consumen.
Compatibilidad con todos los modelos, los aceleradores y las nubes
Uno de los principios fundamentales del enfoque de MaaS es el control. Permite que las empresas seleccionen e implementen una gran variedad de modelos de inteligencia artificial, elijan sus aceleradores de hardware preferidos y trabajen dentro de sus entornos locales o de nube actuales. Este enfoque brinda a las empresas la libertad de implementar la inteligencia artificial de acuerdo con sus necesidades técnicas, requisitos de seguridad y preferencias operativas.
- Las empresas enfrentan limitaciones estrictas a la hora de adoptar la inteligencia artificial. Estas suelen incluir:
- restricciones por servicios de nube específicos;
- dependencia de los ecosistemas de modelos propietarios;
- limitaciones por infraestructuras de hardware fijas.
- MaaS aborda estas limitaciones de varias maneras:
- Admite modelos open source o propietarios, modelos entrenados de forma personalizada y LLM conocidos, como Llama y Mistral.
- No se limita a los modelos basados en texto, sino que incluye el análisis predictivo, la visión artificial, las herramientas de transcripción de audio y otros casos prácticos de inteligencia artificial generativa multimodal, como la generación de imágenes o videos.
- MaaS sigue siendo independiente de los aceleradores de hardware, por lo que:
- Las empresas pueden seleccionar las GPU u otros aceleradores que se adapten a sus cargas de trabajo, estructuras de costos y necesidades de rendimiento.
- Los equipos unificados de inteligencia artificial pueden tomar decisiones importantes sobre el tamaño y la implementación, lo que mejora la eficiencia y reduce los errores de los usuarios con menos conocimientos técnicos.
- La gestión concentrada permite:
- optimizar la asignación y el uso de la infraestructura;
- reducir los gastos operativos y prevenir los errores de configuración de los recursos.
- MaaS admite la implementación en todos los entornos, entre los que se incluyen:
- las instalaciones, la nube híbrida, los entornos aislados y las nubes públicas, lo cual es especialmente valioso para los sectores altamente regulados que requieren soberanía de los datos, cumplimiento normativo o controles de seguridad estrictos.
Modo en que Red Hat implementa el enfoque de MaaS
Red Hat adoptó MaaS internamente al unificar el acceso al modelo de inteligencia artificial y su implementación. Nuestro equipo interno de inteligencia artificial gestiona los recursos de esta tecnología y las operaciones de los modelos desde un solo lugar con Red Hat OpenShift y Red Hat OpenShift AI como plataforma fundamental. Esta implementación concentrada de los modelos simplifica el uso de la inteligencia artificial para los usuarios de toda la empresa, lo que permite que los desarrolladores y los equipos empresariales integren las funciones de inteligencia artificial en sus flujos de trabajo de manera eficiente, sin necesidad de contar con hardware específico ni gran experiencia técnica.
Nuestra implementación presenta una arquitectura de distribución adaptable que utiliza GPU dentro de OpenShift AI y conecta a los usuarios a través de una puerta de enlace de API unificada. Esto brinda un acceso a los modelos de inteligencia artificial que es controlado, rastreable y centrado en la seguridad. El uso se gestiona cuidadosamente a través de la supervisión basada en tokens, lo que facilita el seguimiento preciso de quién usa los modelos, con qué frecuencia y por cuánto tiempo. Como resultado, se optimiza el uso del hardware, se reduce el consumo innecesario de los recursos de la GPU y se ofrece información detallada para asignar los costos con precisión entre los distintos equipos o proyectos internos.
Nuestra implementación de MaaS utiliza flujos de trabajo de GitOps, lo cual brinda alta disponibilidad y confiabilidad. Este enfoque operativo reduce la intervención manual y los posibles errores, y establece un control claro sobre las implementaciones de inteligencia artificial.
Uno de los beneficios principales de la implementación interna de MaaS es la notable mejora en la eficiencia de los recursos y la experiencia de los usuarios. En lugar de que varios equipos aprovisionen las GPU e implementen los modelos de forma independiente, MaaS eliminó la duplicación de tareas, optimizó las operaciones internas y aceleró significativamente la obtención de resultados. Cuando se prueban y verifican los modelos nuevos, los equipos de Red Hat pueden integrarlos y utilizarlos de inmediato, en lugar de sufrir demoras por la asignación del hardware o las tareas de preparación.
Comienza a diseñar tu plataforma interna de inteligencia artificial hoy mismo
¿Todo listo para simplificar la distribución de la inteligencia artificial y obtener beneficios reales de tus inversiones en infraestructura? Para comenzar, consulta nuestro tutorial detallado sobre MaaS y obtén más información sobre su funcionamiento. Luego, explora la página del producto de OpenShift AI para evaluar las funciones de la plataforma y la guía de uso de la GPU.
Red Hat Consulting ayuda a los equipos que desarrollan una MaaS de forma interna a diseñar y poner en funcionamiento entornos de distribución de modelos adaptados a sus necesidades. Obtén más información en la página de Red Hat Consulting para la inteligencia artificial.
Si deseas explorar ejemplos reales con más detalle, consulta nuestra serie de webinars por solicitud, que incluye la sesión sobre MaaS.