No es ningún secreto: la industria tecnológica está adoptando rápidamente el desarrollo de software agéntico para convertir los procesos de negocio en flujos de trabajo agénticos totalmente autónomos. Si bien el poder de estas herramientas es innegable, los modelos de consumo actuales presentan un desafío. La mayoría de estas soluciones se entregan bajo un enfoque de model-as-a-service, el cual está destinado a desencadenar una versión de la IA de la paradoja de la nube: la paradoja agéntica.

La paradoja es simple. El camino más rápido para aumentar la velocidad de tus procesos de negocio es utilizar potentes modelos de frontera (frontier models). Sin embargo, a medida que la adopción escala, esta estrategia se vuelve insostenible. Los costos de los tokens erosionan los márgenes de beneficio, la latencia impredecible puede degradar el rendimiento y el envío de datos sensibles a API públicas puede vulnerar la confidencialidad, la soberanía y los mandatos regulatorios. Para aliviar estas tensiones, las empresas deben ir más allá del simple consumo y avanzar hacia una estrategia de arquitectura híbrida que priorice la capacidad de elección.

El costo de la innovación

Ya existen puntos de fricción visibles. Algunos informes muestran que hay empresas agotando la totalidad de su presupuesto de gasto en la nube en tokens para mediados del segundo trimestre (Q2). Nos acercamos a una coyuntura crítica en la que necesitamos nuevos enfoques para la inferencia de modelos, con el fin de reafirmar el control sobre los costes, el rendimiento y los datos.

¿Cómo responderán las organizaciones cuando la factura de la innovación de ayer llegue mañana? Estamos superando la era de simplemente usar modelos; ahora debemos diseñar los sistemas que los sustentan. Es probable que la adopción siga un patrón híbrido: parte del consumo de tokens se realizará mediante modelos gestionados, mientras que otra parte se autogestionará en la nube pública o en los centros de datos de la empresa.

Una mentalidad centrada en el sistema

Gran parte de nuestro trabajo en los grupos de Investigación y Tecnologías Emergentes de Red Hat se centra en la relación entre las capas de inteligencia e infraestructura, y da como resultado proyectos comunitarios de código abierto innovadores, como una base reforzada y basada en imágenes para agentes de IA que se construyó recientemente. Al tratar las cargas de trabajo de IA con el mismo rigor que el software empresarial tradicional, el código abierto proporciona la estabilidad necesaria para los entornos de producción.

Este cambio arquitectónico permite que las organizaciones se alejen de una visión centrada en el modelo y avancen hacia una mentalidad centrada en el sistema. En este modelo, el valor reside en la fiabilidad de toda la infraestructura (stack) en lugar de depender de la API de un único proveedor.

El mecanismo de la elección

A medida que una empresa trabaja para recuperar su equilibrio financiero y establecer una base de control híbrido y consistencia, el camino inicial suele ser el uso de un proxy o enrutador de inferencia. Este es el enfoque menos disruptivo para reducir los costes de inferencia en una implementación agéntica existente con un cambio arquitectónico mínimo. Al mantener la consistencia en los puntos de conexión (endpoints) de inferencia,

Es por esto que Red Hat creó proyectos como vLLM Semantic Routerllm-d: para explorar ideas innovadoras en inteligencia artificial y, en el caso de vLLM Semantic Router, el enrutamiento de inferencia y la economía de los tokens. Esta investigación y desarrollo pioneros son los pilares que eventualmente dan forma a las plataformas de Red Hat. Proyectos como vLLM Semantic Router proporcionan el enrutamiento inteligente y eficiente necesario para navegar en un entorno multimodal; al ser dueñas de esta capa de inteligencia de enrutamiento, las organizaciones pueden recuperar el control sobre sus cargas de trabajo en cualquier infraestructura.

Una realidad híbrida

Más allá del enrutamiento de inferencia, el siguiente paso para las organizaciones es explorar soluciones autogestionadas. Esto significa utilizar las últimas ofertas de modelos de pesos abiertos (open weight models) servidos por una plataforma de inferencia de alto rendimiento como vLLM, alojada en su propia infraestructura.

Luego surge un desafío fundamental: ¿Cómo pueden las organizaciones tomar los potentes procesos de negocio impulsados por agentes, desarrollados mediante el modelo como servicio, y reemplazarlos con modelos de pesos abiertos? ¿Cómo pueden las empresas replicar los patrones del modelo como servicio para dejar de ser simples consumidores de tokens y convertirse en proveedores de IA? ¿A qué compensaciones (trade-offs) se enfrentarán durante esta transición? ¿Cómo pueden lograrlo con éxito sin reducir la eficacia?

Cada empresa posee años de datos únicos, y los modelos entrenados en el dominio público carecen de este contexto y entrenamiento específicos. Los modelos de pesos abiertos que se ejecutan localmente pueden vincularse con estas fuentes de datos privadas para mejorar de forma segura la precisión y las capacidades de los agentes. Si bien algunos modelos de pesos abiertos pueden actuar como un reemplazo inmediato, otros requieren trabajo para cerrar la brecha de rendimiento mediante el ajuste fino (fine-tuning), la destilación y el aprendizaje por refuerzo. A medida que el aprendizaje por refuerzo se introduce en el mercado, la precisión de estos modelos y las cargas de trabajo agénticas resultantes mejorarán aún más. Este camino conduce, en última instancia, a una arquitectura híbrida: algunos modelos permanecen autogestionados para las cargas de trabajo principales, mientras que otros se consumen a través de una interfaz de servicio gestionada por terceros.

Red Hat se especializa en soluciones híbridas. De la misma manera que entregamos una plataforma híbrida para el consumo de la nube con Red Hat Enterprise LinuxRed Hat OpenShiftRed Hat AI Enterprise proporciona una plataforma híbrida para el despliegue de agentes e inferencia, independientemente del modelo que se utilice o de dónde esté alojado, demostrando que la capacidad de elección llega a través del código abierto. El futuro de la IA es híbrido, y las plataformas para construir ese futuro ya están aquí, en Red Hat.

Para escuchar más de los ejecutivos de Red Hat, así como de nuestros clientes y socios, ve las keynotes del Red Hat Summit en directo por YouTube

Descubre más sobre el Red Hat Summit consulta todos los anuncios de Red Hat  de esta semana en el Red Hat Summit newsroom. Sigue @RedHatSummit o #RHSummit en X para updates específicos del evento. 


Sobre el autor

Steve Watt is a Distinguished Engineer and vice president of the Office of the CTO, which includes Red Hat Research and Emerging Technologies. Prior to joining Red Hat, Steve was the founder of the Hadoop Business and Hadoop Chief Technologist at HP and a Software Architect and Master Inventor at IBM Emerging Technologies. Prior to IBM, Steve worked for a number of consumer facing software startups in the USA and his native South Africa.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegar por canal

automation icon

Automatización

Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos

AI icon

Inteligencia artificial

Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar

open hybrid cloud icon

Nube híbrida abierta

Vea como construimos un futuro flexible con la nube híbrida

security icon

Seguridad

Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías

edge icon

Edge computing

Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge

Infrastructure icon

Infraestructura

Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo

application development icon

Aplicaciones

Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones

Virtualization icon

Virtualización

El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube