Intel a récemment lancé la 5e génération de processeurs Intel® Xeon® Scalable (Intel Xeon SP), dont le nom de code est Emerald Rapids, une gamme de processeurs haut de gamme conçus pour les entreprises et destinés à des charges de travail variées. Pour mesurer les performances des nouvelles puces d'Intel, nous avons collaboré avec Intel et d'autres partenaires afin de réaliser des tests de performance avec Red Hat Enterprise Linux 8.8/9.2 et versions ultérieures.
Les processeurs Intel Xeon Scalable de 5e génération sont une solution de substitution compatibles avec les cartes mères Xeon Scalable de 4e génération existantes. Elle prend désormais en charge jusqu'à 64 cœurs par socket contre 60 précédemment, peut gérer des vitesses de mémoire DDR5-5600 contre DDR5-4800 dans la version précédente ainsi que jusqu'à 3 fois la LLC (Last Level Cache ou dernier niveau de cache) et jusqu'à 20 GT/s sur les API 2.0. L'équipe d'ingénierie des performances de Red Hat a configuré un système de prototype de pointe d'Intel pour ces deux modèles afin de procéder à des mesures de performances.
Performances SAP
RHEL 8.8 SAP HANA Leadership on 5e génération Intel Xeon Scalable Process
En nous appuyant sur notre longue collaboration, Red Hat et Intel ont collaboré pour offrir des performances de pointe aux datacenters d'entreprise et au-delà. Depuis plus d'un an, les équipes de développement et d'ingénierie des performances de Red Hat travaillent sur la compatibilité et la validation du matériel de ces nouveaux processeurs évolutifs depuis plus d'un an, en exécutant diverses tests de performance avant la version générale de Red Hat Enterprise Linux.
Plus de performances par cœur, un cache de dernier niveau plus grand, une mémoire et un stockage plus rapides combinés à des cœurs optimisés pour les charges de travail, ce qui améliore les performances globales du système. Pour démontrer les performances et fournir des informations supplémentaires sur l'évolutivité et le dimensionnement des applications et des charges de travail SAP HANA, SAP lance l'édition Business Warehouse (BWH) du test SAP HANA Standard Application Benchmark [1]. Actuellement dans la version 3, ce test de performance simule une multitude d'utilisateurs ayant des exigences analytiques différentes et mesure l'indicateur clé de performance (KPI) pertinent pour chacune des trois phases de l'évaluation, qui sont définies ci-dessous :
- Phase de chargement des données, test de la latence des données et des performances de charge (plus la valeur est basse, mieux c'est)
- Phase de test du débit des requêtes : test du débit des requêtes avec des requêtes moyennement complexes (plus il est élevé, mieux c'est)
- Phase d’exécution des requêtes, testant les performances d’exécution de requêtes très complexes (plus la valeur est basse, mieux c’est)
Red Hat Enterprise Linux (RHEL) a été utilisé dans plusieurs publications récentes de l'évaluation ci-dessus. Plus précisément, l'utilisation de deux tailles initiales d'enregistrement (1,3 et 2,6 milliards d'enregistrements) réalisées à l'aide d'un serveur Dell PowerEdge R760 équipé de processeurs Intel Xeon Scalable de 5e génération a démontré que l'exécution de la charge de travail sur Red Hat Enterprise Linux pouvait donner lieu à une augmentation significative des performances par rapport à la génération précédente d'instances Intel. (voir le Tableau 1).
Tableau 1 : Résultats de la catégorie « scale-up » exécutée avec SAP BW Edition pour SAP HANA Standard Application Benchmark, version 3 sur SAP NetWeaver 7.50 et SAP HANA 2.0
Initial Enregistrements (Milliards) | Phase 1 (plus la valeur est basse, mieux c’est) | Phase 2 (plus la valeur est élevée, mieux c'est) | Phase 3 (plus la valeur est basse, mieux c’est) | |
Red Hat Enterprise Linux 8.8 [2] | 2.6 | 7 083 s | 13,410 | 68 s |
SUSE Linux Enterprise Server 15 [3] | 2.6 | 10 404 s | 9,917 | 76 s |
Avantage de la 5e génération Intel Xeon/Red Hat Enterprise Linux | 31,9 % | 35,2 % | 10,5 % |
[1] Résultats SAP Depuis le 1er mars 2023, SAP et SAP HANA sont les marques déposées de SAP AG en Allemagne et dans plusieurs autres pays. Voir www.sap.com/benchmark pour plus d'informations
[2] Dell PowerEdge R760 (2 processeurs/128 cœurs/256 threads), processeur
Intel Xeon Platform 8592+, 1,9 GHz, cache L1 de 80 Ko et 2 048 Ko de cache L2 par cœur, 320 Mo de cache L3 par processeur, 1 536 Go de mémoire principale). Numéro de certification #2023076
[3] Atos BullSequana SH20 (2 processeurs/120 cœurs/240 threads), processeur Intel Xeon
Platform 8490H, 1,9 GHz, cache L1 de 80 Ko et cache L2 de 2 048 Ko par cœur, 112,5 Mo L3 cache par processeur, 1 024 Go de mémoire principale). Numéro de certification #2023028
En outre, avec une taille d'ensemble de données de 1,3 milliard d'enregistrements initiaux, un serveur Dell EMC PowerEdge R760 exécutant Red Hat Enterprise Linux a également obtenu de meilleures performances qu'un serveur configuré similaire pour deux indicateurs de performance clés sur trois démontrant un meilleur temps de chargement des ensembles de données et un meilleur temps d'exécution des requêtes complexes (voir le tableau 2).
Tableau 2 : Résultats de la catégorie « scale-up » exécutée avec SAP BW Edition pour SAP HANA Standard Application Benchmark, version 3 sur SAP NetWeaver 7.50 et SAP HANA 2.0
Enregistrements initiaux (milliards) | Phase 1 (plus la valeur est basse, mieux c’est) | Phase 2 (plus la valeur est élevée, mieux c'est) | Phase 3 (plus la valeur est basse, mieux c’est) | |
Red Hat Enterprise Linux 8.8 [4] | 1.3 | 6 069 s | 17,846 | 65 s |
SUSE Linux Enterprise Server 15 [5] | 1.3 | 8 041 s | 14,288 | 61 s |
Avantage de la 5e génération d'Intel Xeon/Red Hat Enterprise Linux | 24,5 % | 24,9 % | -6,6 % |
[4] Dell PowerEdge R760 (2 processeurs/128 cœurs/256 threads), processeur Intel Xeon
Platinum 8592+, 1,9 GHz, cache L1 de 80 Ko et cache L2 de 2 048 Ko par cœur, cache L3 de 320 Mo par processeur, 1 536 Go (mémoire principale). Numéro de certification #2023075
[5] Atos BullSequana SH20 (2 processeurs/120 cœurs/240 threads), processeur Intel Xeon
Platform 8490H, 1,9 GHz, cache L1 de 80 Ko et cache L2 de 2 048 Ko par cœur, 112,5 Mo L3 cache par processeur, 1 024 Go de mémoire principale). Numéro de certification #2023026
Ces résultats attestent de la volonté de Red Hat d'aider les partenaires OEM et les éditeurs de logiciels indépendants (ISV) à proposer des solutions hautement performantes à nos clients mutuels et de mettre en avant la collaboration entre Red Hat et Dell, ainsi que la collaboration avec SAP, a permis la création de solutions certifiées provenant d'une seule source pour SAP HANA. Disponible en configuration à serveur unique ou plus grande, la solution Dell est optimisée avec Red Hat Enterprise Linux for SAP Solutions.
TPC-H @ SF =10000
Le test de performance standard TPC-H, publié par le Transaction Processing Council (TPC), est une autre norme du secteur.
Les résultats montrent que les machines HPE ProLiant DL380 ont enregistré de bonnes performances lors de l'évaluation TPC-H @ SF= 10000, avec une amélioration de 17,9 % des performances en Queries/heures (QphH) et un gain de 31,4 % au niveau du prix (Prix/QphH). Les résultats TPC-H vérifiés ont été exécutés par HPE et ont utilisé Microsoft SQLserver 2022 64 bits sur une instance de 5e génération Intel Xeon SP avec RHEL9.3, par rapport aux résultats de la 4e génération Intel Xeon SP avec le même système SQLserver 2022 sur Microsoft Windows Server 2022 Standard Edition Red Hat Enterprise LinuxLa combinaison de RHEL9.3 et des conceptions Intel Xeon SP de 5e génération permet de mettre en évidence l'intérêt de la mise à niveau du serveur et du système d'exploitation vers une solution qui a permis d'obtenir les meilleurs résultats au test TPC-H (hors cluster) de 10 000 Go [6]
TPC -H avec HPE DB @ 10 To SF = 10 000 | |||||||
Sponsor | Système | Performances (QphH) | Prix/kQphH | Disponibilité du système | Date de soumission | Nom du logiciel de base de données | Nom du logiciel du système d'exploitation |
Processeur Intel Xeon de 4e génération antérieur | 2,028,444 | 821,80 USD | 5/1/2023 | 2/8/2023 | Microsoft SQL Server 2022 Enterprise Edition 64 bits | Microsoft Windows Server 2022 Standard Edition | |
NOUVEAU Processeur Intel Xeon de 5e génération | 2,391,511 | 625,77 USD | 6/30/2024 | 1/25/2024 | Microsoft SQL Server 2022 Enterprise Edition 64 bits | Red Hat Enterprise Linux Server version 9.3 | |
Speedup Gen5/Gen4 | 17,9 % | 31,4 % |
RHEL 9.4 (bêta) : IA/AA et performances de calcul avec Intel® AMX
Test de la 5e génération Intel Xeon [ 7] pour les capacités d'IA/AA, en comparant les performances à celles du processeur Intel Xeon de 4e génération précédant [8] à l'aide de certains des benchmarks Phoronix Test Suite (PTS) pour PyTorch et TensorFlow, ainsi que des suites de tests Neural Magic DeepSparse et Intel® OpenVINO™. Ces quatre suites d’évaluation comprennent plus de 100 sous-tests. Reportez-vous à [9] pour reproduire ces résultats.
Nous avons également exécuté des tests de performance généraux en matière de calcul du processeur, comme le taux de base du processeur SPEC (estimé), et certains tests de performance à deux dimensions (FFTW) dans nos systèmes de laboratoire, afin de comparer ce qui est comparable à ce qu'ils connaissent sur les systèmes bêta RHEL 9.4.
Nos résultats SPEC ne constituent pas une exécution officielle. Nous avons utilisé des binaires Intel avec la configuration ic2024.0.2-lin-sapphirerapids-rate-20231213.cfg.
Les résultats reflètent les gains de performances prédéfinis. Aucun des tests de performance ne comporte de réglages ou d'optimisations spécifiques à la 5e génération Intel Xeon SP au-delà de ce que le compilateur peut détecter automatiquement.Nos résultats font apparaître que les facteurs d'accélération moyenne des Intel Xeon SP de 5e génération vont de 1,07 à 1,22, et les vitesses d'accélération maximales sont comprises entre 1,19 et 1,89 par rapport aux Intel Xeon SP de 4e génération.

[6] TPC et TPC-H sont des marques de Transaction Processing Performance Council. Toutes les marques tierces appartiennent à leurs propriétaires respectifs. Voir https://www.tpc.org/tpch/results. Toutes les comparaisons et réclamations en date du 15 mars 2024.Filtrage des résultats de 10 000 Go : https://www.tpc.org/tpch/results/tpch_perf_results5.ASP?resulttype=nonc…
[7] Configuration matérielle des processeurs Intel Xeon SP de 5e génération
Processor: 2 x Intel Xeon Platinum 8592+ @ 3.90GHz (128 Cores / 256 Threads) Motherboard: Intel D50DNP1SBB (SE5C7411.86B.9533.D01.2310110651 BIOS) Memory: 1008 GB @ 5800 MT/s Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Address sizes: 52 bits physical, 57 bits virtual Byte Order: Little Endian CPU(s): 256 On-line CPU(s) list: 0-255 Vendor ID: GenuineIntel BIOS Vendor ID: Intel(R) Corporation Model name: INTEL(R) XEON(R) PLATINUM 8592+ BIOS Model name: INTEL(R) XEON(R) PLATINUM 8592+ CPU family: 6 Model: 207 Thread(s) per core: 2 Core(s) per socket: 64 Socket(s): 2 Stepping: 2 CPU(s) scaling MHz: 100% CPU max MHz: 3900.0000 CPU min MHz: 800.0000 BogoMIPS: 3800.00 Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities Virtualization features: Virtualization: VT-x Caches (sum of all): L1d: 6 MiB (128 instances) L1i: 4 MiB (128 instances) L2: 256 MiB (128 instances) L3: 640 MiB (2 instances) NUMA: NUMA node(s): 4 NUMA node0 CPU(s): 0-31,128-159 NUMA node1 CPU(s): 32-63,160-191 NUMA node2 CPU(s): 64-95,192-223 NUMA node3 CPU(s): 96-127,224-255 Vulnerabilities: Gather data sampling: Not affected Itlb multihit: Not affected L1tf: Not affected Mds: Not affected Meltdown: Not affected Mmio stale data: Not affected Retbleed: Not affected Spec rstack overflow: Not affected Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization Spectre v2: Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence Srbds: Not affected Tsx async abort: Not affected
[8] Configuration matérielle de la 4e génération des processeurs Intel Xeon SP
Processor: 2 x Intel Xeon Platinum 8480+ @ 3.80GHz (112 Cores / 224 Threads) Motherboard: Dell 0VRV9X (1.3.2 BIOS) Memory: 2016 GB @ 4800 MT/s Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Address sizes: 46 bits physical, 57 bits virtual Byte Order: Little Endian CPU(s): 224 On-line CPU(s) list: 0-223 Vendor ID: GenuineIntel BIOS Vendor ID: Intel Model name: Intel(R) Xeon(R) Platinum 8480+ BIOS Model name: Intel(R) Xeon(R) Platinum 8480+ CPU family: 6 Model: 143 Thread(s) per core: 2 Core(s) per socket: 56 Socket(s): 2 Stepping: 8 CPU(s) scaling MHz: 98% CPU max MHz: 3800.0000 CPU min MHz: 800.0000 BogoMIPS: 4000.00 Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities Virtualization features: Virtualization: VT-x Caches (sum of all): L1d: 5.3 MiB (112 instances) L1i: 3.5 MiB (112 instances) L2: 224 MiB (112 instances) L3: 210 MiB (2 instances) NUMA: NUMA node(s): 2 NUMA node0 CPU(s): 0,2,4,6,8, . . . NUMA node1 CPU(s): 1,3,5,7,9, . . . Vulnerabilities: Gather data sampling: Not affected Itlb multihit: Not affected L1tf: Not affected Mds: Not affected Meltdown: Not affected Mmio stale data: Not affected Retbleed: Not affected Spec rstack overflow: Not affected Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization Spectre v2: Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence Srbds: Not affected Tsx async abort: Not affected
[9] Utilisation de Platformnix-Test-Suites dans des conteneurs
Le framework PTS constitue un moyen extrêmement pratique pour exécuter des tests de performances. Il dispose d’un vaste écosystème avec de nombreux résultats enregistrés disponibles à des fins de comparaison. Pour obtenir des informations officielles, y compris des instructions officielles quant à l'exécution des tests PTS, voirPlatformerix Test Suite etOpenBenchmarking.org.
Nous avons réalisé les tests liés à l'IA/AA dans des conteneurs Centos Stream 9 (sur des hôtes bêta RHEL 9.4) afin d'éviter toute modification accidentelle de l'environnement du système hôte et d'appliquer une liste vierge pour chaque essai répété.
Étapes pour reproduire les résultats des tests liés à l’IA/AA sur votre système :
podman run -it --rm --net=host --privileged centos:stream9 /bin/bash
sed -i "/\[crb\]/,+9s/enabled=0/enabled=1/" /etc/yum.repos.d/centos.repo
dnf -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm
dnf -y install atlas-devel autoconf automake binutils blas blas-devel boost-devel boost-thread bzip2 cmake expat-devel findutils gcc gcc-c++ gcc-gfortran gflags-devel git glog-devel gmock-devel gzip hdf5-devel iputils leveldb-devel libquadmath-devel libusb-devel libusbx-devel lmdb-devel make meson nfs-utils ninja-build openblas-devel opencv opencv-devel openssl-devel patch pciutils php-cli php-json php-xml procps-ng protobuf-compiler protobuf-devel python3 python3-devel python3-pip python3-yaml snappy-devel tar unzip vim-enhanced wget xz zip
At this point you might mount a shared volume with phoronix-test-suite already installed, or you can just download and unpack it in the container with steps like these:
wget https://phoronix-test-suite.com/releases/phoronix-test-suite-10.8.4.tar.gz
tar xvzf phoronix-test-suite-10.8.4.tar.gz
cd phoronix-test-suite
./phoronix-test-suite install deepsparse openvino pytorch tensorflow
./phoronix-test-suite benchmark deepsparse openvino pytorch tensorflow
À propos des auteurs
Michey is a member of the Red Hat Performance Engineering team, and works on bare metal/virtualization performance and machine learning performance.. His areas of expertise include storage performance, Linux kernel performance, and performance tooling.
Contenu similaire
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Programmes originaux
Histoires passionnantes de créateurs et de leaders de technologies d'entreprise