A medida que los modelos de lenguaje de gran tamaño (LLM) avanzan rápidamente y se integran cada vez más en los flujos de trabajo empresariales más importantes, su capacidad para razonar con precisión y responder a conocimientos muy especializados y específicos de un área se vuelve esencial. Esto es particularmente cierto en el ámbito de la ciberseguridad, donde hay mucho en juego, la precisión es fundamental y suele darse por garantizada. Por lo tanto, es útil y necesario analizar el rendimiento de los LLM con evaluaciones comparativas realistas y de alta calidad que sean específicas de la ciberseguridad.
En esta publicación de blog, se describe nuestro análisis de varios modelos IBM Granite e InstructLab con el conjunto de datos CyberMetric, una herramienta exclusiva para evaluar los conocimientos sobre ciberseguridad. Evaluamos una máquina virtual de Red Hat Enterprise Linux (RHEL) AI 1.3 que incluye InstructLab y una sola unidad de procesamiento gráfico (GPU) NVIDIA L4.
Evaluamos los siguientes modelos:
IBM Granite
- granite-3.3-8b-instruct;
- granite-3.3-2b-instruct;
- granite-3.0-8b-instruct;
- granite-3.0-2b-instruct.
InstructLab
- merlinite-7b-pt;
- granite-3.0-8b-lab-community.
Conjuntos de evaluación CyberMetric utilizados
- CyberMetric-80-v1.json;
- CyberMetric-500-v1.json;
- CyberMetric-2000-v1.json;
- CyberMetric-10000-v1.json.
¿Qué es el conjunto de datos CyberMetric?
El conjunto de datos CyberMetric es una herramienta de evaluación comparativa relativamente nueva en el ámbito de la ciberseguridad. Consta de más de 10 000 preguntas de opción múltiple validadas por personas, lo que la convierte en un recurso integral para evaluar los LLM en este tipo de contexto.
El conjunto de datos proviene de una amplia variedad de materiales confiables, como los estándares abiertos, las directrices del Instituto Nacional de Estándares y Tecnología (NIST), los artículos de investigación, los libros disponibles para el público, las solicitudes de comentarios (RFC) y otras publicaciones relevantes. Se creó con técnicas de generación aumentada por recuperación (RAG), que combinan los puntos fuertes de los modelos basados en la recuperación con las funciones generativas.
Además, el conjunto de datos CyberMetric se sometió a un riguroso proceso de perfeccionamiento de varias etapas, en el que tanto los LLM como los especialistas aportan datos de alta calidad que reflejan con precisión el conocimiento real sobre ciberseguridad.
El conjunto de datos está diseñado para evaluar la comprensión y la capacidad de recuperar información de un LLM en nueve áreas distintas:
- la recuperación ante desastres y el plan de continuidad empresarial (BCP);
- la gestión de identidades y de acceso (IAM);
- la seguridad del Internet de las cosas (IoT);
- la criptografía;
- la seguridad inalámbrica;
- la seguridad de la red;
- la seguridad de la nube;
- las pruebas de intrusión;
- el cumplimiento normativo y la auditoría.
El conjunto de datos se encuentra disponible en cuatro tamaños distintos: 80, 500, 2000 y 10 000 preguntas.
¿Qué es InstructLab?
InstructLab es una plataforma open source diseñada por IBM y Red Hat para simplificar el proceso de personalización y ajuste de los LLM para áreas específicas. Se basa en el método de ajuste a gran escala para los chatbots (LAB) y permite mejorar los modelos de manera eficiente con muy poca intervención humana o recursos informáticos limitados.
Para lograrlo, InstructLab incorpora conocimiento a partir de la taxonomía, genera datos sintéticos automáticamente y perfecciona los modelos para generar ciertos comportamientos y realizar tareas específicas utilizando métodos sofisticados. Los modelos mejorados se pueden poner a disposición en la etapa de producción de forma local mediante la interfaz de línea de comandos (CLI) de ilab con backends, como los modelos de lenguaje de gran tamaño virtuales (vLLM) o llama.cpp.
A diferencia de los flujos de trabajo de perfeccionamiento tradicionales, InstructLab admite las colaboraciones upstream y las mejoras permanentes de la comunidad. No depende de un modelo e impulsa las versiones actualizadas de modelos de peso abierto, como IBM Granite y Merlinite (que deriva de Mistral), de forma periódica.
Tipos de modelos evaluados:
- Modelos Granite: son los LLM básicos que desarrolla IBM. Los modelos que terminan con la palabra "instruct" están adaptados específicamente para seguir instrucciones y participar en tareas de conversación o razonamiento.
- Modelos InstructLab: representan el perfeccionamiento impulsado por la comunidad. Por lo general, se diseñan a partir de modelos base, como Granite, pero se entrenan con las herramientas y la metodología de InstructLab para lograr un rendimiento de uso general o alineado con un área específica.
¿Por qué conviene se eligieron estos modelos específicos?
Nuestra elección de los modelos se basó en la intención de ofrecer un punto de comparación relevante, en especial con la tabla de clasificación oficial de CyberMetric. Elegimos los modelos merlinite-7b-pt, granite-3.0-8b-lab-community, granite-3.0-2b-instruct y granite-3.0-8b-instruct porque se ajustaban al período de lanzamiento de la evaluación.
La evaluación incluyó los modelos IBM Granite 3.3 más recientes (granite-3.3-8b-instruct y granite-3.3-2b-instruct), lo que nos permite demostrar la evolución del rendimiento de los modelos Granite.
Puesta a disposición de los modelos en la etapa de producción a través de InstructLab
Todos los modelos se pusieron a disposición en la etapa de producción de forma local en nuestra máquina virtual de RHEL AI con el comando ilab. El proceso implica descargar el modelo y llevarlo a la producción:
ilab model download --repository ibm-granite/granite-3.3-8b-instruct --hf-token
Después de su descarga, se inicia la puesta a disposición en la etapa de producción:
ilab model serve --model-path ~/.cache/instructlab/models/ibm-granite/granite-3.3-8b-instruct --gpus 1
Reducción de los límites de la memoria de la GPU
Hay un problema que surge por nuestro entorno de configuración limitado, que solo tiene una GPU L4. Durante la puesta a disposición de los modelos en la etapa de producción a través de InstructLab (que utiliza vLLM como backend), nos encontramos con un problema común en el que algunas configuraciones provocaban el agotamiento de la memoria de la GPU debido a un valor alto de max_posicion_embeddings. En concreto, varios modelos tenían este parámetro configurado en "131072" en el archivo config.json, lo que aumentaba significativamente la memoria requerida por la memoria caché de clave-valor (KV) en vLLM y solía generar errores por falta de memoria (OOM).
Solución:
Para solucionar este problema, modificamos manualmente el archivo config.json y establecimos un valor más bajo y más compatible con el hardware:
"max_position_embeddings": 4096
Este valor define la cantidad máxima de tokens que el modelo puede gestionar en una secuencia, según su codificación posicional. Al bajarlo a 4096, el espacio de la memoria caché de clave-valor se reduce considerablemente, aunque sigue siendo suficiente para el conjunto de datos CyberMetric, que contiene preguntas de opción múltiple breves. Este ajuste no afecta la precisión del modelo, ya que no se supera la longitud del token en las entradas de nuestro caso práctico.
Gracias a este cambio, pudimos poner los modelos a disposición en la etapa de producción con éxito, sin inestabilidad ni fallas, lo que permitió que el proceso de evaluación comparativa se desarrollara sin problemas en nuestra configuración de una sola GPU.
Adaptación y perfeccionamiento de los scripts
Adaptamos y perfeccionamos el script de evaluación original de CyberMetric, que inicialmente se diseñó con el fin de interactuar con la interfaz de programación de aplicaciones (API) de OpenAI, para respaldar la evaluación comparativa con nuestros modelos de la etapa de producción local a través de InstructLab. Estas son las principales modificaciones:
- Cambiamos el mecanismo de llamada a la API de openai.ChatCompletion.create por la biblioteca request.post para enviar solicitudes HTTP directamente al extremo del servidor vLLM local expuesto por InstructLab.
- Eliminamos la autenticación de clave de API, ya que ya no era necesaria para un servidor local.
Realizamos pocos cambios en la lógica central del script original de Cybermetric para preservar la integridad y la capacidad de reproducción de la metodología de la evaluación. Como parte del perfeccionamiento, también incorporamos una configuración de parámetros clave que no se incluía en la versión original:
- Dado que el script de CyberMetric evalúa modelos de varios proveedores (OpenAI, Qwen, Mistral, etc.), la falta de una configuración de una temperatura fija podría generar variaciones en las ejecuciones, según el comportamiento predeterminado de cada modelo. Nuestra modificación establece explícitamente la temperatura en 0,0 para que los resultados se puedan reproducir y comparar en todos los modelos probados.
Resultados y análisis de la evaluación comparativa
Para nuestro análisis, nos basamos en el conjunto de datos de la evaluación comparativa de CyberMetric. En lugar de utilizar únicamente la tabla de clasificación total, organizamos los resultados por tamaño de modelo agrupándolos en clases de parámetros comparables (aproximadamente 2 mil millones, 7 mil millones y 8 mil millones). Este enfoque permite una comparación imparcial y significativa al evaluar modelos dentro del mismo rango de capacidad, de manera que se evitan resultados sesgados por las diferencias en la escala. Además, para preservar la integridad de la comparación, excluimos todos los modelos propietarios que no revelan su tamaño.
Modelos de clase de aproximadamente 2 mil millones de parámetros
Esta categoría incluye los LLM que van desde 1,5 mil millones hasta 2,7 mil millones de parámetros.
Observaciones:
- El modelo Granite-3.3-2b-instruct se destaca como líder en esta categoría, con una precisión de casi el 79 % en promedio. Supera con creces a todos sus competidores y presenta mejoras con respecto a su versión anterior, Granite-3.0.
- El avance de Granite-3.0 a Granite-3.3 da como resultado un aumento del 1 % en la precisión promedio, lo que se evidencia principalmente en los tamaños más pequeños (80 y 2000 preguntas) y sugiere un mejor perfeccionamiento con instrucciones o alineación del área.
- Si bien Qwen2.5-1.5B-Instruct muestra un rendimiento aceptable, su menor precisión con conjuntos de datos más grandes indica una menor comprensión de los temas de ciberseguridad.
- Los modelos que no están entrenados para seguir instrucciones, como Qwen1.5-MoE y Phi-2, se quedan muy atrás, lo que demuestra que el perfeccionamiento con instrucciones es fundamental para esta tarea.
- El modelo Gemma-2b tiene un rendimiento inferior en todos los conjuntos de datos y no parece adecuado para las tareas de control de calidad de la ciberseguridad sin un gran perfeccionamiento.
Modelos de clase de 7 mil millones de parámetros
En esta categoría se incluyen los LLM con 7 mil millones (7B) de parámetros.
Modelo LLM | Perfeccionamiento con instrucciones | Empresa | Tamaño | Licencia | 80 P | 500 P | 2000 P | 10 000 P |
Qwen2.5-7B-Instruct | ✔ | Qwen | 7B | Apache 2.0 | 92,50 % | 89,20 % | 87,45 % | 83,56 % |
Falcon3-7B-Instruct | ✔ | TII | 7B | Apache 2.0 | 91,25 % | 85,60 % | 84,25 % | 80,72 % |
Qwen2-7B-Instruct | ✔ | Qwen | 7B | Apache 2.0 | 91,25 % | 84,40 % | 82 % | 78,75 % |
Merlinite-7b-pt | ✔ | InstructLab | 7B | Apache 2.0 | 86,25 % | 81,20 % | 81,95 % | 79,63 % |
Mistral-7B-Instruct-v0.2 | ✔ | Mistral AI | 7B | Apache 2.0 | 78,75 % | 78,40 % | 76,40 % | 74,82 % |
Zephyr-7B-beta | ✔ | HuggingFace | 7B | MIT | 80,94 % | 76,40 % | 72,50 % | 65 % |
Gemma-1.1-7B-it | ✔ | 7B | Abierta | 82,50 % | 75,40 % | 75,75 % | 73,32 % | |
Qwen1.5-7B | ✘ | Qwen | 7B | Abierta | 73,75 % | 70,10 % | 69,96 % | 65,17 % |
Qwen-7B | ✘ | Qwen | 7B | Abierta | 68,42 % | 64,08 % | 63,84 % | 54,09 % |
DeciLM-7B | ✘ | Deci | 7B | Apache 2.0 | 56,55 % | 56,20 % | 53,85 % | 51,32 % |
Gemma-7b | ✘ | 7B | Abierta | 42,50 % | 37,20 % | 36 % | 34,28 % |
Observaciones:
- El modelo Merlinite-7b-pt se destaca por ser el modelo que está alineado con la comunidad con mejor rendimiento después de los líderes principales, con un promedio de precisión superior al 82 %.
- Si bien los modelos líderes como Qwen2.5-7B-Instruct se distinguen en términos de precisión general, la diferencia con Merlinite-7b-pt se reduce considerablemente cuando se aplica a conjuntos de datos más grandes. De hecho, Merlinite lo supera en el conjunto de datos de 10 000 preguntas.
- Los modelos que no están entrenados para seguir instrucciones, como DeciLM-7B y Gemma-7B, muestran bajas importantes en el rendimiento y no son viables para la ciberseguridad sin un perfeccionamiento exhaustivo.
Modelos de clase de 8 mil millones de parámetros
Observaciones:
- El modelo Granite-3.0-8b-instruct encabeza la categoría con una precisión asombrosa del 83,61 % en promedio en todos los conjuntos de datos CyberMetric. Además de que su rendimiento sigue siendo uniforme y confiable, muestra una disminución de menos del 3 % al pasar de 80 a 10 000 preguntas, lo cual es esencial para el razonamiento en casos de ciberseguridad con mucho contexto.
- En comparación con el modelo Granite-3.3-8b-instruct, la versión 3.0 supera por poco el rendimiento promedio, a pesar de ser la más reciente. Mientras que la versión 3.3 muestra una pequeña ventaja en las 2000 preguntas, esta cae a las 10 000 preguntas (80,22 %).
- El modelo Meta-Llama-3-8B-Instruct tiene un rendimiento inferior en comparación con ambos modelos Granite, especialmente en conjuntos de datos a gran escala. Baja más de 10 puntos porcentuales entre las 80 y las 10 000 preguntas, lo que revela una adaptación menos efectiva al área a pesar del perfeccionamiento con instrucciones.
- Los modelos base como Llama3-ChatQA-1.5-8B y Meta-Llama-3-8B proporcionan resultados deficientes en general, con una precisión cercana al 50 % y al 37 %, respectivamente. Esto indica que el perfeccionamiento con instrucciones es fundamental para las evaluaciones comparativas del tipo CyberMetric.
- En general, el modelo Granite-3.0/3.3-instruct ofrece los modelos de clase de 8B más confiables para las tareas de ciberseguridad, por lo que brinda precisión de primer nivel sin depender de las API propietarias y es ideal para las implementaciones autoalojadas.
Acceso a los scripts de evaluación y a los resultados detallados
Para respaldar la capacidad de replicación y llevar a cabo más análisis, publicamos un repositorio de GitHub que contiene:
- el script de evaluación de CyberMetric modificado y adaptado para la puesta a disposición en la etapa de producción local a través de InstructLab;
- resultados sin procesar de la evaluación comparativa para todos los modelos probados;
- un desglose de las preguntas con respuestas incorrectas para cada modelo y tamaño del conjunto de datos.
Este recurso permite que los lectores analicen los casos de fallas específicas de los modelos y comprendan mejor las diferencias de rendimiento en el razonamiento de la ciberseguridad.
Conclusión
Según nuestras pruebas, descubrimos lo siguiente:
El modelo Granite-3.3-2b-instruct claramente lidera la categoría de aproximadamente 2 mil millones de parámetros, por lo que establece un indicador para los modelos compactos optimizados para las instrucciones en el campo de la ciberseguridad. Su capacidad para mantener el rendimiento en conjuntos de datos de distintos tamaños y, al mismo tiempo, utilizar menos parámetros que muchos de sus competidores lo posiciona como una excelente opción para los entornos con recursos limitados.
El modelo Merlinite-7b-pt demuestra ser uno de los modelos 7B más equilibrados y sólidos entre distintas áreas. Si bien no tiene la puntuación más alta, ofrece un valor excepcional para los proyectos impulsados por la comunidad que necesitan un rendimiento sólido de ciberseguridad sin dependencias propietarias.Los modelos
Granite-3.0 y 3.3 establecen el estándar de referencia para los modelos 8B open source en el ámbito de razonamiento de la ciberseguridad. Ofrecen una combinación única de alta precisión, estabilidad en todos los entornos y licencias abiertas, lo que las hace ideales para las implementaciones rentables. En comparación con la competencia, los modelos Granite-8B ofrecen un rendimiento casi de vanguardia.
Prueba del producto
Prueba del producto Red Hat Enterprise Linux
Sobre el autor
Más como éste
Looking ahead to 2026: Red Hat’s view across the hybrid cloud
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube