Recentemente, a Intel lançou a 5ª geração de processadores escaláveis Intel® Xeon® (Intel Xeon SP), com o codinome Emerald Rapids; uma família de processadores avançados voltados para empresas e direcionados a uma ampla variedade de cargas de trabalho. Para entender como os novos chips da Intel se comportam, trabalhamos com a Intel e outras empresas para executar benchmarks com o Red Hat Enterprise Linux 8.8 / 9.2 e versões superiores.
Os processadores escaláveis Xeon de 5ª geração da Intel são compatíveis com as placas-mãe escaláveis Xeon de 4ª geração. Agora, ele é compatível com até 64 núcleos por soquete, em vez de 60 núcleos; pode lidar com velocidades de memória de DDR5-5600 em relação à DDR5-4800 da geração anterior; tem até três vezes mais LLC e alcança velocidades de até 20 GT/s com UPI 2.0. A equipe de engenharia de desempenho da Red Hat configurou um protótipo de sistema da Intel para ambos os modelos para realizar medições de desempenho.
Desempenho SAP
RHEL 8.8 SAP HANA lidera com o processador escalável Intel Xeon de 5ª geração
Com base em nossa longa história de colaboração, a Red Hat e a Intel mais uma vez trabalharam em conjunto para oferecer desempenho de ponta a data centers empresariais. As equipes de desenvolvimento e engenharia de desempenho da Red Hat têm trabalhado na habilitação e validação do hardware desses novos processadores escaláveis há mais de um ano, tendo executado diversos parâmetros de comparação antes do lançamento da versão geral do Red Hat Enterprise Linux.
Maior desempenho por núcleo, cache de último nível (LLC) maior, memória mais rápida e armazenamento combinado com núcleos otimizados para cargas de trabalho beneficiam o desempenho geral do sistema. Para demonstrar o desempenho e oferecer mais informações de dimensionamento e escalabilidade para aplicações e cargas de trabalho do SAP HANA, a SAP apresentou a edição Business Warehouse (BWH) do SAP HANA Standard Application Benchmark [1]. Atualmente na versão 3, esse benchmark simula uma variedade de usuários com diferentes requisitos analíticos e mede o principal indicador de desempenho (KPI) relevante para cada uma das três fases de benchmark, definidas abaixo:
- Fase de carregamento de dados, testando a latência de dados e o desempenho do carregamento (quanto menor, melhor).
- Fase de taxa de transferência de consulta, testando a taxa de transferência de consulta com consultas moderadamente complexas (quanto maior, melhor).
- Fase de tempo de execução de consulta, testando o desempenho da execução de consultas muito complexas (quanto menor, melhor).
O Red Hat Enterprise Linux (RHEL) foi usado em várias publicações recentes do comparativo de mercado acima. Especificamente, dois tamanhos de registro iniciais separados (1,3 e 2,6 bilhões de registros) usando um servidor Dell PowerEdge R760 com processadores escaláveis Intel Xeon de 5ª geração demonstraram que executar a carga de trabalho no Red Hat Enterprise Linux poderia oferecer um aumento significativo de desempenho em relação à geração anterior do Intel (veja a Tabela 1).
Tabela 1. Resultados na categoria de escala vertical executando o SAP BW Edition para SAP HANA Standard Application Benchmark, versão 3 no SAP NetWeaver 7.50 e SAP HANA 2.0.
Inicial Registros (Bilhões) | Fase 1 (mais baixo = melhor) | Fase 2 (mais alto = melhor) | Fase 3 (mais baixo = melhor) | |
Red Hat Enterprise Linux 8.8 [2] | 2.6 | 7.083 s | 13.410 | 68 s |
SUSE Linux Enterprise Server 15 [3] | 2.6 | 10.404 s | 9.917 | 76 s |
Vantagens do Intel Xeon/Red Hat Enterprise Linux de 5ª geração | 31,9% | 35,2% | 10,5% |
[1] Resultados da SAP de 1º de março de 2023, SAP e SAP HANA são marcas registradas da SAP AG na Alemanha e em vários outros países. Consulte www.sap.com/benchmark para mais informações.
[2] Dell PowerEdge R760 (2 processadores / 128 núcleos / 256 threads, processador Intel Xeon
Platinum 8592+, 1,9 GHz, 80 KB de cache L1 e 2048 KB de cache L2 por núcleo, 320 MB de cache L3 por processador, 1536 GB de memória principal). Número da certificação 2023076.
[3] AtosBullSequana SH20 (2 processadores / 120 núcleos / 240 threads, processador Intel Xeon
Platinum 8490H, 1,9 GHz, 80 KB de cache L1 e 2048 KB de cache L2 por núcleo, 112,5 MB L3 por processador, 1024 GB de memória principal). Número da certificação 2023028.
Além disso, usando um conjunto de dados de 1,3 bilhão de registros iniciais, um servidor Dell EMC PowerEdge R760 executando o Red Hat Enterprise Linux também superou um servidor configurado de maneira semelhante em dois dos três KPIs de referência, demonstrando melhor tempo de carregamento de conjunto de dados e tempo de execução de consultas complexas (consulte a Tabela 2).
Tabela 2. Resultados na categoria de escala vertical executando o SAP BW Edition para SAP HANA Standard Application Benchmark, versão 3 no SAP NetWeaver 7.50 e SAP HANA 2.0.
Registros iniciais (bilhões) | Fase 1 (mais baixo = melhor) | Fase 2 (mais alto = melhor) | Fase 3 (mais baixo = melhor) | |
Red Hat Enterprise Linux 8.8 [4] | 1.3 | 6.069 s | 17.846 | 65 s |
SUSE Linux Enterprise Server 15 [5] | 1.3 | 8,041 s | 14.288 | 61 s |
Vantagens do Intel Xeon/Red Hat Enterprise Linux de 5ª geração | 24,5% | 24,9% | -6,6% |
[4] Dell PowerEdge R760 (2 processadores / 128 núcleos / 256 threads, Intel Xeon
Processador Platinum 8592+, 1,9 GHz, 80 KB de cache L1 e 2.048 KB de cache L2 por núcleo, 320 MB de cache L3 por processador, 1.536 GB de memória principal). Número da certificação 2023075.
[5] AtosBullSequana SH20 (2 processadores / 120 núcleos / 240 threads, processador Intel Xeon
Platinum 8490H, 1,9 GHz, 80 KB de cache L1 e 2048 KB de cache L2 por núcleo, 112,5 MB L3 por processador, 1024 GB de memória principal). Número da certificação 2023026.
Esses resultados demonstram o compromisso da Red Hat em auxiliar os parceiros OEM e ISVs a oferecer soluções de alto desempenho aos nossos clientes em comum. Além disso, esses resultados demonstram que a Red Hat e a Dell, em colaboração com a SAP, resultou na criação de soluções certificadas e de fonte única para o SAP HANA. Disponível nas configurações de servidor único e escalabilidade horizontal maior, a solução da Dell é otimizada com o Red Hat Enterprise Linux for SAP Solutions.
TPC-H @ SF =10000
Outro benchmark padrão do setor é o parâmetro de referência de suporte à decisão TPC-H do Conselho de Processamento de Transações (TPC).
Os resultados mostram um forte desempenho das máquinas da classe HPE ProLiant DL380 no benchmark TPC-H @ SF= 10000, com uma melhoria de 17,9% no desempenho em Queries/Hour (QphH) e um ganho de desempenho de preço de 31,4% (Price/QphH). Os resultados do TPC-H auditado foram executados pela HPE e usando o Microsoft SQLserver 2022 de 64 bits no Intel Xeon SP de 5ª geração executando o RHEL9.3, em comparação com os resultados do Intel Xeon SP de 4ª geração com o mesmo SQLserver 2022 no Microsoft Windows Server 2022 Standard Edition executando sistemas. A combinação do RHEL9.3 com os designs do Intel Xeon SP de 5ª geração ajuda a mostrar o valor de fazer upgrade do servidor e do sistema operacional para uma solução que alcançou o resultado nº 1 de desempenho do TPC-H não clusterizado de 10.000 GB[6]
TPC -H c/ BD HPE @ SF de 10 TB = 10000 | |||||||
Patrocinador | Sistema | Desempenho (QphH) | Preço/kQphH | Disponibilidade do sistema | Data de envio | Nome do software do banco de dados | Nome do software do sistema operacional |
Processador Intel Xeon de 4ª geração | 2.028.444 | 821,80 USD | 01/05/2023 | 08/02/2023 | Microsoft SQL Server 2022 Enterprise Edition de 64 bits | Microsoft Windows Server 2022 Standard Edition | |
NOVO Processador Intel Xeon de 5ª geração | 2.391.511 | 625,77 USD | 30/06/2024 | 25/01/2024 | Microsoft SQL Server 2022 Enterprise Edition de 64 bits | Red Hat Enterprise Linux Server Versão 9.3 | |
Aceleração de Gen5/Gen4 | 17,9% | 31,4% |
RHEL 9.4 (beta) IA/ML e desempenho de computação com Intel® AMX
Aqui, exploramos o processador Intel Xeon de 5ª geração [7] que realiza recursos de IA comparando o desempenho com o do processador Intel Xeon de 4ª geração anterior [8] usando alguns dos parâmetros de comparação do conjunto de testes do Phoronix Test Suite (PTS) para PyTorch e TensorFlow e os conjuntos de testes Neural Magic DeepSparse e Intel® OpenVINO™. Esses quatro conjuntos de referência têm mais de 100 subtestes entre eles. Consulte [9] para reproduzir esses resultados.
Também executamos benchmarks gerais de computação de CPU, como SPEC CPU Base Rate (estimated) e FFTW bidimensional em nossos sistemas de laboratório para comparar maçãs com maçãs em sistemas Beta RHEL 9.4.
Nossos resultados de SPEC CPU Base Rate não são uma execução oficial. Usamos binários Intel com a configuração ic2024.0.2-lin-sapphirerapids-rate-20231213.cfg.
Os resultados refletem ganhos de desempenho inéditos. Nenhum dos parâmetros de comparação tem ajustes ou otimizações específicos da 5ª geração do Intel Xeon SP, além do que o compilador pode detectar automaticamente. Nossos resultados mostram que os fatores de aceleração média do Intel Xeon SP de 5ª geração variam de 1,07 a 1,22, e que o aumento de velocidade máximo varia de 1,19 a 1,89 em relação ao Intel Xeon SP de 4ª geração.

Resumo
A equipe do Red Hat Performance Engineering trabalha com a Intel para garantir os recursos de desempenho do Red Hat Enterprise Linux em sistemas antes de os fornecedores de hardware os enviarem para produção. Este post analisou vários recursos da 5ª geração de recursos da Intel, incluindo maior contagem de CPU, memória DDR5 mais rápida, caches de terceiro nível maiores e largura de banda interprocessadora aprimorada. Todos esses recursos são compatíveis com as versões de envio do RHEL 8.8 e RHEL 9.2. Contamos como os OEMs usaram esses recursos para produzir resultados importantes em benchmarks padrão do setor SAP [1] e TPC [6]. Também realizamos testes no RHEL 9.4 beta, que mostram aumentos significativos de velocidade para cargas de trabalho de CPU e benchmarks de IA/ML, comparando o Intel Xeon SP de 5ª geração com o Intel Xeon SP de 4ª geração.
A colaboração entre a Intel e a Red Hat ajuda a expandir nossos recursos. Continuaremos oferecendo recursos inovadores em versões futuras do RHEL, nas quais esperamos continuar sendo o sistema operacional de confiança para clientes e parceiros.
Mais informações
[6] TPC e TPC-H são marcas registradas do Conselho de Desempenho de Processamento de Transações dos Estados Unidos. Todas as marcas de terceiros são de propriedade de seus respectivos proprietários: para mais informações, consulte:https://www.tpc.org/tpch/results. Todas as comparações e afirmações a partir de 15 de março de 2024. Filtro: resultados de 10.000 GB - https://www.tpc.org/tpch/results/tpch_perf_results5.asp?resulttype=nonc…
[7] Configuração de hardware do Intel Xeon SP de 5ª geração
Processor: 2 x Intel Xeon Platinum 8592+ @ 3.90GHz (128 Cores / 256 Threads)
Motherboard: Intel D50DNP1SBB (SE5C7411.86B.9533.D01.2310110651 BIOS)
Memory: 1008 GB @ 5800 MT/s
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Address sizes: 52 bits physical, 57 bits virtual
Byte Order: Little Endian
CPU(s): 256
On-line CPU(s) list: 0-255
Vendor ID: GenuineIntel
BIOS Vendor ID: Intel(R) Corporation
Model name: INTEL(R) XEON(R) PLATINUM 8592+
BIOS Model name: INTEL(R) XEON(R) PLATINUM 8592+
CPU family: 6
Model: 207
Thread(s) per core: 2
Core(s) per socket: 64
Socket(s): 2
Stepping: 2
CPU(s) scaling MHz: 100%
CPU max MHz: 3900.0000
CPU min MHz: 800.0000
BogoMIPS: 3800.00
Flags:
fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht
tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc
cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm
pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch
cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid
ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma
clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc
cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window
hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg
tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk
pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
Virtualization: VT-x
Caches (sum of all):
L1d: 6 MiB (128 instances)
L1i: 4 MiB (128 instances)
L2: 256 MiB (128 instances)
L3: 640 MiB (2 instances)
NUMA:
NUMA node(s): 4
NUMA node0 CPU(s): 0-31,128-159
NUMA node1 CPU(s): 32-63,160-191
NUMA node2 CPU(s): 64-95,192-223
NUMA node3 CPU(s): 96-127,224-255
Vulnerabilities:
Gather data sampling: Not affected
Itlb multihit: Not affected
L1tf: Not affected
Mds: Not affected
Meltdown: Not affected
Mmio stale data: Not affected
Retbleed: Not affected
Spec rstack overflow: Not affected
Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl
Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Spectre v2: Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
Srbds: Not affected
Tsx async abort: Not affected
[8] Configuração de hardware do Intel Xeon SP de 4ª geração
Processor: 2 x Intel Xeon Platinum 8480+ @ 3.80GHz (112 Cores / 224 Threads)
Motherboard: Dell 0VRV9X (1.3.2 BIOS)
Memory: 2016 GB @ 4800 MT/s
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Address sizes: 46 bits physical, 57 bits virtual
Byte Order: Little Endian
CPU(s): 224
On-line CPU(s) list: 0-223
Vendor ID: GenuineIntel
BIOS Vendor ID: Intel
Model name: Intel(R) Xeon(R) Platinum 8480+
BIOS Model name: Intel(R) Xeon(R) Platinum 8480+
CPU family: 6
Model: 143
Thread(s) per core: 2
Core(s) per socket: 56
Socket(s): 2
Stepping: 8
CPU(s) scaling MHz: 98%
CPU max MHz: 3800.0000
CPU min MHz: 800.0000
BogoMIPS: 4000.00
Flags:
fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht
tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc
cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm
pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch
cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid
ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma
clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc
cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window
hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg
tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk
pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
Virtualization: VT-x
Caches (sum of all):
L1d: 5.3 MiB (112 instances)
L1i: 3.5 MiB (112 instances)
L2: 224 MiB (112 instances)
L3: 210 MiB (2 instances)
NUMA:
NUMA node(s): 2
NUMA node0 CPU(s): 0,2,4,6,8, . . .
NUMA node1 CPU(s): 1,3,5,7,9, . . .
Vulnerabilities:
Gather data sampling: Not affected
Itlb multihit: Not affected
L1tf: Not affected
Mds: Not affected
Meltdown: Not affected
Mmio stale data: Not affected
Retbleed: Not affected
Spec rstack overflow: Not affected
Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl
Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Spectre v2: Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
Srbds: Not affected
Tsx async abort: Not affected
[9] Uso do Foronix-Test-Suites em containers
A estrutura de PTS é uma maneira extremamente conveniente de executar testes de desempenho e tem um grande ecossistema com muitos resultados registrados disponíveis para comparação. Para obter informações oficiais, incluindo instruções oficiais explicando como executar testes de PTS, consulte Foronix Test Suite eOpenBenchmarking.org.
Executamos os testes relacionados a IA/ML nos containers do Centos Stream 9 (em hosts Beta do RHEL 9.4) para evitar modificações acidentais no ambiente do sistema host e aplicar uma página limpa para cada avaliação repetida.
Etapas para reproduzir os resultados de testes relacionados a IA/ML no seu sistema:
podman run -it --rm --net=host --privileged centos:stream9 /bin/bash
sed -i "/\[crb\]/,+9s/enabled=0/enabled=1/" /etc/yum.repos.d/centos.repo
dnf -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm
dnf -y install atlas-devel autoconf automake binutils blas blas-devel boost-devel boost-thread bzip2 cmake expat-devel findutils gcc gcc-c++ gcc-gfortran gflags-devel git glog-devel gmock-devel gzip hdf5-devel iputils leveldb-devel libquadmath-devel libusb-devel libusbx-devel lmdb-devel make meson nfs-utils ninja-build openblas-devel opencv opencv-devel openssl-devel patch pciutils php-cli php-json php-xml procps-ng protobuf-compiler protobuf-devel python3 python3-devel python3-pip python3-yaml snappy-devel tar unzip vim-enhanced wget xz zip
At this point you might mount a shared volume with phoronix-test-suite already installed, or you can just download and unpack it in the container with steps like these:
wget https://phoronix-test-suite.com/releases/phoronix-test-suite-10.8.4.tar.gz
tar xvzf phoronix-test-suite-10.8.4.tar.gz
cd phoronix-test-suite
./phoronix-test-suite install deepsparse openvino pytorch tensorflow
./phoronix-test-suite benchmark deepsparse openvino pytorch tensorflow
Sobre os autores
Michey is a member of the Red Hat Performance Engineering team, and works on bare metal/virtualization performance and machine learning performance.. His areas of expertise include storage performance, Linux kernel performance, and performance tooling.
Mais como este
Navegue por canal
Automação
Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes
Inteligência artificial
Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente
Nuvem híbrida aberta
Veja como construímos um futuro mais flexível com a nuvem híbrida
Segurança
Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias
Edge computing
Saiba quais são as atualizações nas plataformas que simplificam as operações na borda
Infraestrutura
Saiba o que há de mais recente na plataforma Linux empresarial líder mundial
Aplicações
Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações
Programas originais
Veja as histórias divertidas de criadores e líderes em tecnologia empresarial