Este blog es una adaptación de una conversación reciente que tuve con Ion Stoica, de la Universidad de California, Berkeley, publicada en el artículo de Red Hat Research Quarterly titulado "De silos a startups: por qué las universidades deben formar parte del crecimiento de la inteligencia artificial en la industria". Lee nuestra conversación completa aquí.
Durante los últimos años, los modelos de lenguaje de gran tamaño (LLM) y el enorme esfuerzo de entrenarlos han dominado la narrativa en torno a la inteligencia artificial. El sector de la tecnología se ha centrado en la etapa de descubrimiento, pero esa era está cambiando rápidamente.
La conversación pasa de "¿cómo construimos el modelo?" a "¿cómo ejecutamos el modelo en producción a escala?"
Este cambio es más que un detalle técnico; es el nuevo centro de gravedad de la inteligencia artificial empresarial. Cuando la inteligencia artificial deja el laboratorio de investigación y se convierte en una función empresarial fundamental, la atención se centra directamente en la inferencia, es decir, la activación de sinapsis en el "cerebro" de un modelo entrenado antes de que genere una respuesta o lleve a cabo una acción. Además, en la empresa, la inferencia debe ser rápida, rentable y estar totalmente controlada.
La respuesta open source al desafío de la inferencia
Trasladar la inteligencia artificial de una prueba de concepto a un servicio confiable de nivel de producción introduce importantes desafíos de complejidad, costo y control para los líderes de Tecnologías de la Información (TI).
En primer lugar, el hardware que se requiere para ejecutar estos modelos, especialmente a la escala que necesita la empresa, es costoso y suele ser escaso. En segundo lugar, la demanda es impredecible. Es posible que experimentes ráfagas de uso elevado, seguidas de períodos prolongados de poca actividad, lo cual puede acumularse en cientos de variantes de modelos específicos del área. Esta variabilidad dificulta enormemente maximizar el aprovechamiento de los recursos y proteger esas inversiones fundamentales.
Hemos visto a la comunidad open source hacer frente a este desafío centrándose en las optimizaciones de rendimiento y eficiencia para la distribución de los modelos de lenguaje de gran tamaño (LLM). Uno de los proyectos más exitosos que lidera esta tarea es vLLM, que se estableció bajo el liderazgo de Ion Stoica en el Sky Computing Lab de la Universidad de California, Berkeley. Como mencionó Ion en nuestra conversación, esta raíz académica es fundamental, ya que demuestra cómo la investigación universitaria resuelve directamente los problemas de inferencia más urgentes del mundo real. vLLM se convirtió rápidamente en el estándar de facto para la distribución de LLM de alto rendimiento. Es un motor diseñado para la velocidad y la eficiencia, a fin de maximizar el rendimiento y minimizar la latencia.
Fortalecimiento de la innovación de la comunidad para la empresa
Los proyectos comunitarios, como vLLM, son el punto de partida de la innovación, pero deben adaptarse para satisfacer las rigurosas demandas de los entornos de producción empresarial. Aquí es donde entra en juego el valor de Red Hat como especialista confiable de Linux y Kubernetes.
Tomamos el trabajo innovador de vLLM y lo combinamos con otros proyectos impulsados por la comunidad para crear una plataforma reforzada, compatible y escalable para la inteligencia artificial en la producción. Un elemento clave de esta evolución es llm-d, un marco de inferencia distribuida para gestionar los LLM a escala del clúster y más allá.
Al integrar llm-d, cambiamos radicalmente la forma en que se ejecutan los LLM en Kubernetes. Esto aporta el valor comprobado de la orquestación de contenedores (el control, la uniformidad y la programación eficiente de los recursos) a la fase más desafiante de la inteligencia artificial hasta el momento: la inferencia de gran volumen y demanda variable.
Esta combinación le permite a las organizaciones:
- Maximizar la inversión en infraestructura: Al aprovechar la orquestación de Kubernetes, hacemos posible la distribución de modelos grandes. Esto permite que los equipos de Tecnologías de la Información (TI) aprovechen al máximo sus aceleradores de hardware costosos y limitados en varias cargas de trabajo y modelos, tratando su infraestructura no como hardware aislado, sino como un conjunto de capacidad informática flexible.
- Lograr tiempos de respuesta más rápidos: La inferencia distribuida gestiona de manera inteligente la demanda impredecible, lo que garantiza que las aplicaciones obtengan las respuestas que necesitan sin picos de latencia.
- Agilizar la implementación con confianza: Ofrecemos un camino confiable desde la investigación de vanguardia y la innovación de la comunidad hasta el software reforzado y con soporte. Esto agiliza la obtención de resultados para los ingenieros de inteligencia artificial y brinda a los equipos de plataformas los controles de gestión y gobernanza necesarios.
El modelo open source esencial para la inteligencia artificial
Ion y yo coincidimos: el canal de innovación que nos dio vLLM y el proyecto llm-d, que comenzó con la investigación académica, evolucionó a través de las comunidades open source y, por último, se estabilizó y obtuvo soporte para la escala empresarial, es el modelo que definirá la próxima década de adopción de la inteligencia artificial.
Para que la inteligencia artificial se convierta realmente en una herramienta empresarial indispensable, no puede permanecer aislada en laboratorios propietarios ni limitarse a pruebas de concepto. Debe ser accesible, transparente y construirse sobre una base que permita la mejora continua y colaborativa. El compromiso de Red Hat es garantizar que la nube híbrida abierta siga siendo el mejor lugar para poner en marcha esta innovación, ya que brinda a las empresas la base que necesitan para ser dueñas de sus datos, controlar su destino y navegar con confianza en el panorama cambiante de la inteligencia artificial.
Sobre el autor
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
Más como éste
Data-driven automation with Red Hat Ansible Automation Platform
Ford's keyless strategy for managing 200+ Red Hat OpenShift clusters
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube