订阅内容

英特尔最近推出了第五代英特尔® 至强® 可扩展处理器(英特尔至强 SP),代号为 EmeraldRapids;面向各种工作负载的一系列以企业为中心的高端处理器。为了解英特尔的新型芯片性能如何,我们与英特尔和其他公司合作,使用红帽企业 Linux 8.8 / 9.2 及更高版本运行 基准测试。

英特尔第五代至强可扩展处理器可直接兼容现有的第四代至强可扩展主板。它现在每个插槽支持多达 64 个核心(而非 60 个核心),处理 DDR5-5600 内存的速度比上一代 DDR5-4800 快,LLC 提高了 3 倍,UPI 2.0 速度提高了 20GT/s。红帽性能工程团队为这两个模型配置了英特尔的 peak 原型系统,以进行性能测量。

SAP 性能

RHEL 8.8 SAP HANA 在第五代英特尔至强可扩展处理器上的领先地位

凭借双方悠久的合作历史,红帽和英特尔再次携手为企业数据中心及周边地区提供最先进的性能。在红帽企业 Linux 正式发布之前,红帽的开发和性能工程团队在硬件支持和这些新型可扩展处理器的验证上投入了一年多的时间,运行了各种基准测试。

更高的每核性能、更大的最后一级缓存、更快的内存以及存储与工作负载优化的核心相结合,有利于整体系统性能。为了演示 SAP HANA 应用和工作负载的性能并提供额外的可扩展性和大小调整信息,SAP 推出了 SAP HANA 标准应用基准测试的 Business Warehouse(BWH)版 [1]。此基准测试目前在版本 3 上运行,模拟具有不同分析要求的各种用户,并测量与三个基准测试阶段中每一个阶段相关的关键性能指标(KPI),具体定义如下:

  1. 数据加载阶段,测试数据延迟和加载性能(越低越好)
  2. 查询吞吐量阶段,使用中等复杂度的查询来测试查询吞吐量(越高越好)
  3. 查询运行时阶段,测试运行非常复杂的查询的性能(越低越好)

上述基准测试的近期出版物中使用了红帽企业 Linux (RHEL)。具体而言,使用配备第五代英特尔至强可扩展处理器的 Dell PowerEdge R760 服务器的两个不同初始记录大小(1.3 和 26 亿条记录)表明,在红帽企业 Linux 上运行工作负载可以提供比上一代英特尔服务器(见表 1)。

表 1在 SAP NetWeaver 7.50 和 SAP HANA 2.0 上运行 SAP BW 版 SAP HANA 标准应用基准测试版本 3 的纵向扩展类别结果

 

初始

记录

(十亿)

第 1 阶段

(越小越好)

第 2 阶段

(越高越好)

第 3 阶段

(越小越好)

红帽企业 Linux 8.8 [2]

2.6

7083 秒

13410

68 秒

SUSE Linux 企业服务器 15 [3]

2.6

10404 秒

9917

76 秒

第五代英特尔至强/红帽企业 Linux 优势

 

31.9%

35.2%

10.5%

[1] 截至 2023 年 3 月 1 日的 SAP 结果;SAP 和 SAP HANA 是 SAP AG 在德国和其他几个国家/地区的注册商标。请参见www.sap.com/benchmark 了解更多信息

[2] Dell PowerEdge R760(2 个处理器/128 核/256 线程,Intel Xeon
白金 8592+ 处理器,1.9 GHz,80 KB L1 缓存,每个核心 2048 KB L2 缓存,每个处理器 320 MB L3 缓存,1536 GB 主内存。认证编号 #2023076

[3] Atos BullSequana SH20(2 个处理器/120 个核心/240 个线程,Intel Xeon)
白金 8490H 处理器,1.9 GHz,每核心 80 KB 一级缓存和 2048 KB 二级缓存,112.5 MB 三级每个处理器 1024 GB 主内存)。认证编号 #2023028

 

此外,在使用 13 亿条初始记录的数据集时,运行红帽企业 Linux 的 Dell EMC PowerEdge R760 服务器在三项基准 KPI 两项中的得分也超过了类似配置的服务器,展示了更短的数据集加载时间和复杂查询运行时间(见表 2)。

表 2在 SAP NetWeaver 7.50 和 SAP HANA 2.0 上运行 SAP BW 版 SAP HANA 标准应用基准测试版本 3 的纵向扩展类别结果

 

初始记录(十亿)

第 1 阶段

(越小越好)

第 2 阶段

(越高越好)

第 3 阶段

(越小越好)

红帽企业 Linux 8.8 [4]

1.3

6069 秒

17846

65 秒

SUSE Linux 企业服务器 15 [5]

1.3

8041 秒

14288

61 秒

第五代英特尔至强/红帽企业 Linux 优势

 

24.5%

24.9%

-6.6%

[4] Dell PowerEdge R760(2 个处理器/128 核/256 线程,Intel Xeon
Platinum 8592+ 处理器,1.9 GHz,每核 80 KB L1 缓存和 2048 KB L2 缓存,每个处理器 320 MB L3 缓存,1536 GB 主内存)。认证编号 #2023075

[5] Atos BullSequana SH20(2 个处理器/120 个核心/240 个线程,Intel Xeon
Platinum 8490H 处理器,1.9 GHz,每核心 80 KB 一级缓存和 2048 KB 二级缓存,112.5 MB 三级每个处理器 1024 GB 主内存)。认证编号 #2023026

 

这些结果证明了红帽致力于帮助 OEM 合作伙伴和 ISV 向我们共同的客户提供高性能解决方案,并展示了红帽和戴尔之间的紧密合作与 SAP合作,促成了针对 SAP HANA 创建经过认证的单一来源解决方案。戴尔解决方案提供单服务器配置和更大的横向扩展配置,并针对用于 SAP 解决方案的红帽企业 Linux 进行了优化

TPC-H @ SF =10000

另一个行业标准基准是事务处理委员会(TPC)的 TPC-H 决策支持基准。

结果表明,HPE ProLiant DL380 类计算机在 TPC-H 基准测试 @ SF= 10000 时性能强劲,每小时查询数 (QphH) 性能提高 17.9%,性价比 (Price/QphH) 提高 31.4%。经审计的 TPC-H 结果由慧与运行,使用运行 RHEL9.3 的第 5 代英特尔至强 SP 上的 Microsoft SQLserver 2022 64 位版本,与使用相同 SQLserver 2022 的第 4 代英特尔至强 SP 运行于运行 RHEL9.3 的 Microsoft Windows Server 2022 标准版上的结果进行比较系统。RHEL9.3 和第五代英特尔至强 SP 设计的组合有助于展示将服务器和操作系统升级为实现 #1 非集群 10,000GB TPC-H 性能结果的解决方案的价值[6]

TPC -H w/ HPE DB @ 10 TB SF = 10000

       

主办方

系统

性能 (QphH)

价格/公里/小时/小时

系统可用性

提交日期

数据库软件名称

操作系统软件名称

之前的第四代英特尔至强处理器

HPE ProLiant DL380 Gen11

2,028,444

821.80 美元

5/1/2023

2/8/2023

Microsoft SQL Server 2022 企业版 64 位

Microsoft Windows Server 2022 标准版

全新第五代英特尔至强处理器

HPE ProLiant DL380 Gen11

2,391,511

625.77 美元

6/30/2024

1/25/2024

Microsoft SQL Server 2022 企业版 64 位

红帽企业 Linux 服务器版 9.3

Gen5/Gen4 提速

 

17.9%

31.4%

    

RHEL 9.4(测试版)AI/ML 和英特尔® AMX 计算性能

在这里,我们使用 PyTorch 和 TensorFlow 的一些Phoronix 测试套件 (PTS)基准测试,将性能与之前的第四代智能英特尔至强处理器 [8] 进行比较,以探讨第五代智能英特尔至强处理器 [7] 执行 AI/ML 功能的情况,以及 Neural Magic DeepSparse 和英特尔® OpenVINO™ 测试套件。这四个基准测试套件包含 100 多个子测试。请参阅 [9] 以重现这些结果。

我们还在实验室系统中运行了一般的 CPU 计算基准测试,如 SPEC CPU Base Rate(估计值)和一些二维 FFTW,以在测试版 RHEL 9.4 系统上进行同类比较。

(我们的 SPEC CPU 基本速率结果并非官方运行。我们使用了英特尔二进制文件和 ic2024.0.2-lin-sapphirapids-rate-20231213.cfg 配置)

结果反映了开箱即用的性能提升。除了编译器可以自动检测到的范围外,所有基准测试都没有对第五代英特尔至强 SP 进行特定的调优或优化。我们的结果显示,相对于第四代英特尔至强 SP,第五代英特尔至强 SP 的平均加速倍数范围为 1.07 到 1.22,最大加速倍数范围为 1.19 到 1.89。 

Graph comparing Average and Max Speedup

总结

红帽性能工程团队与英特尔合作,确保在硬件供应商将系统交付到生产环境之前,系统上已具备红帽企业 Linux 的性能。这篇博客回顾了英特尔第五代功能的许多功能,包括更多的 CPU 数量、更快的 DDR5 内存、更大的三级缓存,以及改进的处理器间带宽。所有这些功能都在 RHEL 8.8 和 RHEL 9.2 的发行版本中受到支持。我们分享了 OEM 如何利用这些功能在 SAP [1] 行业标准基准测试和 TPC [6] 上取得领先成绩。我们还对 RHEL 9.4 Beta 版进行了测试,结果显示,将第五代英特尔至强 SP 与第四代英特尔至强 SP 相比,CPU 工作负载和 AI/ML 基准测试的速度显着提升。

英特尔和红帽之间的合作有助于扩展我们的能力,我们将继续在未来版本的 RHEL 中提供创新功能,我们希望继续成为客户和合作伙伴值得信赖的操作系统。

了解更多


[6] TPC 和 TPC-H 是事务处理性能委员会的商标。所有第三方标记均归其各自所有者所有:请参阅:https://www.tpc.org/tpch/results。截至 2024 年 3 月 15 日的所有比较和声明。按 10,000 GB 结果筛选: https://www.tpc.org/tpch/results/tpch_perf_results5.asp?resulttype=nonc…

[7] 第五代英特尔至强 SP 硬件配置

Processor:    2 x Intel Xeon Platinum 8592+ @ 3.90GHz (128 Cores / 256 Threads)
Motherboard:  Intel D50DNP1SBB (SE5C7411.86B.9533.D01.2310110651 BIOS)
Memory:       1008 GB @ 5800 MT/s
Architecture:            x86_64
 CPU op-mode(s):        32-bit, 64-bit
 Address sizes:         52 bits physical, 57 bits virtual
 Byte Order:            Little Endian
CPU(s):                  256
 On-line CPU(s) list:   0-255
Vendor ID:               GenuineIntel
 BIOS Vendor ID:        Intel(R) Corporation
 Model name:            INTEL(R) XEON(R) PLATINUM 8592+
   BIOS Model name:     INTEL(R) XEON(R) PLATINUM 8592+
   CPU family:          6
   Model:               207
   Thread(s) per core:  2
   Core(s) per socket:  64
   Socket(s):           2
   Stepping:            2
   CPU(s) scaling MHz:  100%
   CPU max MHz:         3900.0000
   CPU min MHz:         800.0000
   BogoMIPS:            3800.00
Flags:
   fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht
   tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc
   cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm
   pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch
   cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid
   ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma
   clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc
   cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window
   hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg
   tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk
   pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
 Virtualization:        VT-x
Caches (sum of all):     
 L1d:                   6 MiB (128 instances)
 L1i:                   4 MiB (128 instances)
 L2:                    256 MiB (128 instances)
 L3:                    640 MiB (2 instances)
NUMA:
 NUMA node(s):          4
 NUMA node0 CPU(s):     0-31,128-159
 NUMA node1 CPU(s):     32-63,160-191
 NUMA node2 CPU(s):     64-95,192-223
 NUMA node3 CPU(s):     96-127,224-255
Vulnerabilities:         
 Gather data sampling:  Not affected
 Itlb multihit:         Not affected
 L1tf:                  Not affected
 Mds:                   Not affected
 Meltdown:              Not affected
 Mmio stale data:       Not affected
 Retbleed:              Not affected
 Spec rstack overflow:  Not affected
 Spec store bypass:     Mitigation; Speculative Store Bypass disabled via prctl
 Spectre v1:            Mitigation; usercopy/swapgs barriers and __user pointer sanitization
 Spectre v2:            Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
 Srbds:                 Not affected
 Tsx async abort:       Not affected

[8] 第四代英特尔至强 SP 硬件配置

Processor:   2 x Intel Xeon Platinum 8480+ @ 3.80GHz (112 Cores / 224 Threads)
Motherboard: Dell 0VRV9X (1.3.2 BIOS)
Memory:      2016 GB @ 4800 MT/s
Architecture:            x86_64
 CPU op-mode(s):        32-bit, 64-bit
 Address sizes:         46 bits physical, 57 bits virtual
 Byte Order:            Little Endian
CPU(s):                  224
 On-line CPU(s) list:   0-223
Vendor ID:               GenuineIntel
 BIOS Vendor ID:        Intel
 Model name:            Intel(R) Xeon(R) Platinum 8480+
   BIOS Model name:     Intel(R) Xeon(R) Platinum 8480+
   CPU family:          6
   Model:               143
   Thread(s) per core:  2
   Core(s) per socket:  56
   Socket(s):           2
   Stepping:            8
   CPU(s) scaling MHz:  98%
   CPU max MHz:         3800.0000
   CPU min MHz:         800.0000
   BogoMIPS:            4000.00
Flags:
   fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht 
   tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc 
   cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm 
   pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch 
   cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid 
   ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma 
   clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc 
   cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window 
   hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg 
   tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk 
   pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
 Virtualization:        VT-x
Caches (sum of all):
 L1d:                   5.3 MiB (112 instances)
 L1i:                   3.5 MiB (112 instances)
 L2:                    224 MiB (112 instances)
 L3:                    210 MiB (2 instances)
NUMA:
 NUMA node(s):          2
 NUMA node0 CPU(s):     0,2,4,6,8, . . .
 NUMA node1 CPU(s):     1,3,5,7,9, . . .
Vulnerabilities:
 Gather data sampling:  Not affected
 Itlb multihit:         Not affected
 L1tf:                  Not affected
 Mds:                   Not affected
 Meltdown:              Not affected
 Mmio stale data:       Not affected
 Retbleed:              Not affected
 Spec rstack overflow:  Not affected
 Spec store bypass:     Mitigation; Speculative Store Bypass disabled via prctl
 Spectre v1:            Mitigation; usercopy/swapgs barriers and __user pointer sanitization
 Spectre v2:            Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
 Srbds:                 Not affected
 Tsx async abort:       Not affected

[9] 在容器中使用 phoronix-test-suites

PTS 框架是运行性能测试的一种极其便捷的方式,它拥有一个庞大的生态系统,其中有许多记录的结果可供比较。有关官方信息,包括解释如何运行 PTS 测试的官方说明,请参阅 Phoronix Test SuiteOpenBenchmarking.org

我们在 Centos Stream 9 容器(在 RHEL 9.4 Beta 版主机上)中运行了 AI/ML 相关测试,以避免对主机系统环境进行任何意外修改,并确保每次重复试验都从头开始。

在系统上重现 AI/ML 相关测试结果的步骤:

  1. podman run -it --rm --net=host --privileged centos:stream9 /bin/bash
  2. sed -i "/\[crb\]/,+9s/enabled=0/enabled=1/" /etc/yum.repos.d/centos.repo
  3. dnf -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm
  4. dnf -y install atlas-devel autoconf automake binutils blas blas-devel boost-devel boost-thread bzip2 cmake expat-devel findutils gcc gcc-c++ gcc-gfortran gflags-devel git glog-devel gmock-devel gzip hdf5-devel iputils leveldb-devel libquadmath-devel libusb-devel libusbx-devel lmdb-devel make meson nfs-utils ninja-build openblas-devel opencv opencv-devel openssl-devel patch pciutils php-cli php-json php-xml procps-ng protobuf-compiler protobuf-devel python3 python3-devel python3-pip python3-yaml snappy-devel tar unzip vim-enhanced wget xz zip
  5. At this point you might mount a shared volume with phoronix-test-suite already installed, or you can just download and unpack it in the container with steps like these:
    1. wget https://phoronix-test-suite.com/releases/phoronix-test-suite-10.8.4.tar.gz
    2. tar xvzf phoronix-test-suite-10.8.4.tar.gz
    3. cd phoronix-test-suite
  6. ./phoronix-test-suite  install      deepsparse openvino pytorch tensorflow
  7. ./phoronix-test-suite  benchmark    deepsparse openvino pytorch tensorflow

关于作者

Michey is a member of the Red Hat Performance Engineering team, and works on bare metal/virtualization performance and machine learning performance.. His areas of expertise include storage performance, Linux kernel performance, and performance tooling.

Read full bio
UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Original series icon

原创节目

关于企业技术领域的创客和领导者们有趣的故事