Intel lanzó recientemente la quinta generación de procesadores escalables Intel® Xeon® (Intel Xeon® SP), cuyo nombre en código es Emerald Rapids; una familia de procesadores de alta gama enfocados en la empresa, destinados a una amplia gama de cargas de trabajo. Para conocer el desempeño de los nuevos chips de Intel, trabajamos con Intel y otras empresas para ejecutar puntos de referencia con Red Hat Enterprise Linux 8.8 / 9.2 y versiones posteriores.
Los procesadores Xeon Scalable de 5.ª generación de Intel son compatibles con las placas base Xeon Scalable de 4.ª generación actuales. Ahora admite hasta 64 núcleos por socket en lugar de 60 núcleos, puede manejar velocidades de memoria DDR5-5600 en comparación con la generación anterior de DDR5-4800, hasta 3 veces la LLC y velocidades de UPI 2.0 de hasta 20 GT/s. El equipo de Red Hat Performance Engineering configuró un sistema prototipo de pico de Intel para ambos modelos a fin de realizar mediciones de rendimiento.
Rendimiento de SAP
Liderazgo de RHEL 8.8 SAP HANA con el procesador escalable Intel Xeon de quinta generación
Gracias a nuestra larga trayectoria de colaboración, Intel y Red Hat trabajaron juntos una vez más para ofrecer un rendimiento de vanguardia a los centros de datos empresariales y más allá. Los equipos de desarrollo e ingeniería de rendimiento de Red Hat han estado trabajando en el hardware, la habilitación y la validación de estos nuevos procesadores escalables durante más de un año, ejecutando una variedad de indicadores antes del lanzamiento de Red Hat Enterprise Linux.
El mayor rendimiento por núcleo, la memoria caché de último nivel más grande, la memoria y el almacenamiento más rápidos, combinados con los núcleos optimizados para las cargas de trabajo, benefician el rendimiento general del sistema. Para demostrar el rendimiento y proporcionar información adicional sobre la escalabilidad y el tamaño de las aplicaciones y las cargas de trabajo de SAP HANA, SAP presentó la edición Business Warehouse (BWH) de SAP HANA Standard Application Benchmark [1]. Actualmente en la versión 3, este benchmark simula una variedad de usuarios con diferentes requisitos analíticos y mide el indicador clave de rendimiento (KPI) relevante para cada una de las tres fases del benchmark, que se definen a continuación:
- Fase de carga de datos, prueba de latencia de datos y rendimiento de carga (cuanto menos, mejor)
- Fase de rendimiento de consultas, prueba del rendimiento de consultas con consultas moderadamente complejas (cuanto más alto, mejor)
- Fase de tiempo de ejecución de consultas, que prueba el rendimiento de la ejecución de consultas muy complejas (cuanto menos, mejor)
Red Hat Enterprise Linux (RHEL) se usó en variaspublicaciones recientes del índice de referencia anterior. Específicamente, dos tamaños de registro iniciales separados (1300 millones y 2600 millones de registros) con un servidor Dell PowerEdge R760 con procesadores escalables Intel Xeon de quinta generación demostraron que la ejecución de la carga de trabajo en Red Hat Enterprise Linux podría mejorar significativamente el rendimiento en comparación con la generación anterior de servidores Intel (consulte la Tabla 1).
Tabla 1.Resultados en la categoría de escalamiento vertical que ejecuta SAP BW Edition para SAP HANA Standard Application Benchmark, versión 3 en SAP NetWeaver 7.50 y SAP HANA 2.0
Inicial Registros (Mil millones de dólares) | Etapa 1 (Cuanto menos, mejor) | Etapa 2 (más alto es mejor) | Fase 3 (Cuanto menos, mejor) | |
Red Hat Enterprise Linux 8.8 [2] | 2.6 | 7083 s | 13,410 | 68 s |
SUSE Linux Enterprise Server 15 [3] | 2.6 | 10 404 s | 9,917 | 76 s |
Ventaja de Intel Xeon/Red Hat Enterprise Linux de quinta generación | 31,9 % | 35,2 % | 10,5 % |
[1] Resultados de SAP al 1 de marzo de 2023, SAP y SAP HANA son marcas comerciales registradas de SAP AG en Alemania y en otros países. Para obtener más información, consultewww.sap.com/benchmark
[2] Dell PowerEdge R760 (2 procesadores/128 núcleos/256 subprocesos, procesador Intel Xeon
Platinum 8592+, 1,9 GHz, 80 KB de caché L1 y 2048 KB de caché L2 por núcleo, 320 MB de caché L3 por procesador, 1536 GB de memoria principal).Número de certificación n.° 2023076
[3] Atos BullSequana SH20 (2 procesadores/120 núcleos/240 subprocesos, procesador Intel Xeon
Platinum 8490H, 1,9 GHz, 80 KB de caché de nivel 1 y 2048 KB de caché de nivel 2 por núcleo, 112,5 MB de nivel 3 caché por procesador, 1024 GB de memoria principal).Número de certificación n.º 2023028
Además, con un tamaño de conjunto de datos de 1300 millones de registros iniciales, un servidor Dell EMC PowerEdge R760 que ejecuta Red Hat Enterprise Linux tambiénsuperó a un servidor con una configuración similar en dos de los tres KPI de referencia demostrando un mejor tiempo de carga de conjuntos de datos y tiempo de ejecución de consultas complejas (consulte la Tabla 2).
Tabla 2.Resultados en la categoría de escalamiento vertical que ejecuta SAP BW Edition para SAP HANA Standard Application Benchmark, versión 3 en SAP NetWeaver 7.50 y SAP HANA 2.0
Registros iniciales (miles de millones) | Etapa 1 (Cuanto menos, mejor) | Etapa 2 (más alto es mejor) | Fase 3 (Cuanto menos, mejor) | |
Red Hat Enterprise Linux 8.8 [4] | 1.3 | 6069 s | 17,846 | 65 s |
SUSE Linux Enterprise Server 15 [5] | 1.3 | 8041 s | 14,288 | 61 s |
Ventaja de Intel Xeon/Red Hat Enterprise Linux de quinta generación | 24,5 % | 24,9 % | -6,6 % |
[4] Dell PowerEdge R760 (2 procesadores/128 núcleos/256 subprocesos, procesador Intel Xeon
Platinum 8592+, 1,9 GHz, 80 KB de caché L1 y 2048 KB de caché L2 por núcleo, 320 MB de caché L3 por procesador, 1536 GB de memoria principal).Número de certificación n.° 2023075
[5] Atos BullSequana SH20 (2 procesadores/120 núcleos/240 subprocesos, Intel Xeon
Procesador Platinum 8490H, 1,9 GHz, 80 KB de caché de nivel 1 y 2048 KB de caché de nivel 2 por núcleo, 112,5 MB de nivel 3 caché por procesador, 1024 GB de memoria principal).Número de certificación n.º 2023026
Estos resultados demuestran el compromiso de Red Hat de ayudar a los partners OEM y a los proveedores de software independientes a ofrecer soluciones de alto rendimiento a nuestros clientes mutuos y demuestranla estrecha colaboración entre Dell y Red Hat que, en colaboración,con SAP, dio lugar a la creación de soluciones certificadas de un solo proveedor para SAP HANA. La solución de Dell, disponible tanto en configuraciones de un solo servidor como de escalamiento horizontal más grandes, está optimizada con Red Hat Enterprise Linux for SAP Solutions.
TPC-H @ SF = 10 000
Otro estándar del sector es el índice de soporte de decisiones TPC-H del Transaction Processing Council (TPC).
Los resultados muestran un rendimiento sólido de las máquinas de la clase HPE ProLiant DL380 en la prueba comparativa TPC-H @ SF= 10 000, con una mejora del 17,9 % en el rendimiento en consultas/hora (QphH) y un aumento del 31,4 % en el rendimiento de la relación precio/calidad por hora (Price/QphH). Los resultados auditados de TPC-H fueron ejecutados por HPE y usaron Microsoft SQLserver 2022 de 64 bits en Intel Xeon SP de quinta generación que ejecuta RHEL9.3 en comparación con los resultados de Intel Xeon SP de cuarta generación con el mismo SQLserver 2022 en Microsoft Windows Server 2022 Standard Edition sistemas operativos.La combinación de RHEL9.3 y los diseños de Intel Xeon SP de quinta generación muestran el valor de actualizar el servidor y el sistema operativo a una solución que logró el resultado de rendimiento de TPC-H de 10 000GB no agrupado n.° 1[6]
TPC -H con HPE DB @ 10 TB SF = 10000 | |||||||
Patrocinador | Sistema | Rendimiento (QphH) | Precio por kQphH | Disponibilidad del sistema | Fecha de envío | Nombre del software de la base de datos | Nombre del software del sistema operativo |
Procesador Intel Xeon anterior de cuarta generación | 2,028,444 | USD 821,80 | 5/1/2023 | 2/8/2023 | Microsoft SQL Server 2022 Enterprise Edition de 64 bits | Microsoft Windows Server 2022 Standard Edition | |
NUEVO Procesador Intel Xeon de quinta generación | 2,391,511 | USD 625,77 | 6/30/2024 | 1/25/2024 | Microsoft SQL Server 2022 Enterprise Edition de 64 bits | Red Hat Enterprise Linux Server Versión 9.3 | |
Speedup Gen5/Gen4 | 17.9% | 31.4% |
RHEL 9.4 (beta) IA/ML y rendimiento informático con Intel® AMX
Aquí analizamos el rendimiento de la IA/ML del procesador Intel Xeon de quinta generación [7] mediante la comparación del rendimiento con el procesador Intel Xeon de cuarta generación anterior [8] mediante algunos de los puntos de referencia dePhoronix Test Suite (PTS) para PyTorch y TensorFlow. y los conjuntos de pruebas Neural Magic DeepSparse e Intel® OpenVINO™. Estas cuatro suites de referencia tienen más de 100 subpruebas entre ellas. Consulte [9] para reproducir estos resultados.
También ejecutamos indicadores generales de cómputo de CPU, como SPEC CPU Base Rate (estimated), y algunos FFTW bidimensionales en nuestros sistemas de laboratorio para comparar manzanas con manzanas en sistemas RHEL 9.4 beta.
(Nuestros resultados de SPEC CPU Base Rate no son una ejecución oficial.Usamos binarios de Intel con la configuración ic2024.0.2-lin-sapphirerapids-rate-20231213.cfg)
Los resultados reflejan mejoras de rendimiento inmediatas. Ninguno de los puntos de referencia tiene ajustes u optimizaciones específicas de Intel Xeon SP de quinta generación más allá de lo que el compilador puede detectar automáticamente.Nuestros resultados muestran que los factores de aceleración promedio de Intel Xeon SP de quinta generación varían de 1,07 a 1,22, y que las velocidades máximas varían de 1,19 a 1,89 en relación con los procesadores Intel Xeon de cuarta generación.

Resumen
El equipo de ingeniería de rendimiento de Red Hat trabaja con Intel para garantizar las capacidades de rendimiento de Red Hat Enterprise Linux en los sistemas antes de que los proveedores de hardware los envíen a la producción.En este blog, se analizaron varias funciones de la quinta generación de Intel, entre las que se incluyen una mayor cantidad de CPU, una memoria DDR5 más rápida, cachés de tercer nivel más grandes y un ancho de banda entre procesadores mejorado. Todas estas funciones son compatibles con las versiones comerciales de RHEL 8.8 y RHEL 9.2.Compartimos cómo los OEM utilizaron estas funciones para obtener resultados destacados en los estándares del sector de SAP [1] y en el TPC [6]. También realizamos pruebas en la versión beta de RHEL 9.4, en las que se observaron mejoras significativas en las cargas de trabajo de la CPU y en los puntos de referencia de la IA y el ML en los que se compararon los procesadores Intel Xeon SP de quinta generación con los procesadores Intel Xeon de cuarta generación.
La colaboración entre Intel y Red Hat nos permite ampliar nuestras capacidades, y seguiremos ofreciendo funciones innovadoras en futuras versiones de RHEL, donde esperamos seguir siendo el sistema operativo de confianza para los clientes y los partners.
Obtenga más información
[6] TPC y TPC-H son marcas comerciales de Transaction Processing Performance Council. Todas las marcas de terceros son propiedad de sus respectivos propietarios: consulte:https://www.tpc.org/tpch/results.Todas las comparaciones y afirmaciones al 15 de marzo de 2024.Filtrado por resultados de 10 000 GB: https://www.tpc.org/tpch/results/tpch_perf_results5.asp?resulttype=nonc…
[7] Configuración de hardware Intel Xeon SP de quinta generación
Processor: 2 x Intel Xeon Platinum 8592+ @ 3.90GHz (128 Cores / 256 Threads)
Motherboard: Intel D50DNP1SBB (SE5C7411.86B.9533.D01.2310110651 BIOS)
Memory: 1008 GB @ 5800 MT/s
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Address sizes: 52 bits physical, 57 bits virtual
Byte Order: Little Endian
CPU(s): 256
On-line CPU(s) list: 0-255
Vendor ID: GenuineIntel
BIOS Vendor ID: Intel(R) Corporation
Model name: INTEL(R) XEON(R) PLATINUM 8592+
BIOS Model name: INTEL(R) XEON(R) PLATINUM 8592+
CPU family: 6
Model: 207
Thread(s) per core: 2
Core(s) per socket: 64
Socket(s): 2
Stepping: 2
CPU(s) scaling MHz: 100%
CPU max MHz: 3900.0000
CPU min MHz: 800.0000
BogoMIPS: 3800.00
Flags:
fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht
tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc
cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm
pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch
cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid
ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma
clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc
cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window
hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg
tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk
pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
Virtualization: VT-x
Caches (sum of all):
L1d: 6 MiB (128 instances)
L1i: 4 MiB (128 instances)
L2: 256 MiB (128 instances)
L3: 640 MiB (2 instances)
NUMA:
NUMA node(s): 4
NUMA node0 CPU(s): 0-31,128-159
NUMA node1 CPU(s): 32-63,160-191
NUMA node2 CPU(s): 64-95,192-223
NUMA node3 CPU(s): 96-127,224-255
Vulnerabilities:
Gather data sampling: Not affected
Itlb multihit: Not affected
L1tf: Not affected
Mds: Not affected
Meltdown: Not affected
Mmio stale data: Not affected
Retbleed: Not affected
Spec rstack overflow: Not affected
Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl
Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Spectre v2: Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
Srbds: Not affected
Tsx async abort: Not affected
[8] Configuración de hardware Intel Xeon SP de cuarta generación
Processor: 2 x Intel Xeon Platinum 8480+ @ 3.80GHz (112 Cores / 224 Threads)
Motherboard: Dell 0VRV9X (1.3.2 BIOS)
Memory: 2016 GB @ 4800 MT/s
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Address sizes: 46 bits physical, 57 bits virtual
Byte Order: Little Endian
CPU(s): 224
On-line CPU(s) list: 0-223
Vendor ID: GenuineIntel
BIOS Vendor ID: Intel
Model name: Intel(R) Xeon(R) Platinum 8480+
BIOS Model name: Intel(R) Xeon(R) Platinum 8480+
CPU family: 6
Model: 143
Thread(s) per core: 2
Core(s) per socket: 56
Socket(s): 2
Stepping: 8
CPU(s) scaling MHz: 98%
CPU max MHz: 3800.0000
CPU min MHz: 800.0000
BogoMIPS: 4000.00
Flags:
fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht
tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc
cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm
pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch
cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid
ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma
clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc
cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window
hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg
tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk
pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
Virtualization: VT-x
Caches (sum of all):
L1d: 5.3 MiB (112 instances)
L1i: 3.5 MiB (112 instances)
L2: 224 MiB (112 instances)
L3: 210 MiB (2 instances)
NUMA:
NUMA node(s): 2
NUMA node0 CPU(s): 0,2,4,6,8, . . .
NUMA node1 CPU(s): 1,3,5,7,9, . . .
Vulnerabilities:
Gather data sampling: Not affected
Itlb multihit: Not affected
L1tf: Not affected
Mds: Not affected
Meltdown: Not affected
Mmio stale data: Not affected
Retbleed: Not affected
Spec rstack overflow: Not affected
Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl
Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Spectre v2: Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
Srbds: Not affected
Tsx async abort: Not affected
[9] Uso de Phoronix-Test-Suites en contenedores
El marco PTS es una forma extremadamente conveniente de ejecutar pruebas de rendimiento, y tiene un gran ecosistema con muchos resultados registrados disponibles para comparar. Para obtener información oficial, incluidas las instrucciones oficiales que explican cómo ejecutar las pruebas de PTS, consultePhoronix Test Suite yOpenBenchmarking.org.
Ejecutamos las pruebas relacionadas con la IA y el ML en los contenedores de Centos Stream 9 (en los hosts beta de RHEL 9.4) para evitar modificaciones accidentales en el entorno del sistema del host y hacer borrón y cuenta nueva para cada prueba repetida.
Pasos para reproducir los resultados de las pruebas relacionadas con la IA/ML en su sistema:
podman run -it --rm --net=host --privileged centos:stream9 /bin/bash
sed -i "/\[crb\]/,+9s/enabled=0/enabled=1/" /etc/yum.repos.d/centos.repo
dnf -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm
dnf -y install atlas-devel autoconf automake binutils blas blas-devel boost-devel boost-thread bzip2 cmake expat-devel findutils gcc gcc-c++ gcc-gfortran gflags-devel git glog-devel gmock-devel gzip hdf5-devel iputils leveldb-devel libquadmath-devel libusb-devel libusbx-devel lmdb-devel make meson nfs-utils ninja-build openblas-devel opencv opencv-devel openssl-devel patch pciutils php-cli php-json php-xml procps-ng protobuf-compiler protobuf-devel python3 python3-devel python3-pip python3-yaml snappy-devel tar unzip vim-enhanced wget xz zip
At this point you might mount a shared volume with phoronix-test-suite already installed, or you can just download and unpack it in the container with steps like these:
wget https://phoronix-test-suite.com/releases/phoronix-test-suite-10.8.4.tar.gz
tar xvzf phoronix-test-suite-10.8.4.tar.gz
cd phoronix-test-suite
./phoronix-test-suite install deepsparse openvino pytorch tensorflow
./phoronix-test-suite benchmark deepsparse openvino pytorch tensorflow
Sobre los autores
Michey is a member of the Red Hat Performance Engineering team, and works on bare metal/virtualization performance and machine learning performance.. His areas of expertise include storage performance, Linux kernel performance, and performance tooling.
Más similar
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Programas originales
Vea historias divertidas de creadores y líderes en tecnología empresarial