피드 구독

Intel은 최근 5세대 Intel® Xeon® Scalable 프로세서(Intel Xeon SP), 코드명 Emerald Rapids를 출시했습니다. 다양한 워크로드를 대상으로 하는 엔터프라이즈 중심의 고급 프로세서 제품군입니다. Intel의 새로운 칩이 어떤 성능을 발휘하는지 알아보기 위해 Red Hat은 Intel 및 타사와 협력하여 Red Hat Enterprise Linux 8.8/9.2 이상에서 벤치마크를 실행했습니다.

Intel의 5세대 Xeon Scalable 프로세서는 기존의 4세대 Xeon Scalable 마더보드와 호환되는 드롭인(drop-in)입니다. 이제 소켓당 최대 64코어(60코어)를 지원하며, 이전 세대의 DDR5-4800에 비해 DDR5-5600 메모리 속도, LLC의 최대 3배, 최대 20GT/s의 UPI 2.0 속도를 처리할 수 있습니다. Red Hat Performance Engineering 팀은 성능 측정을 수행하기 위해 두 모델 모두에 대해 Intel의 피크 프로토타입 시스템을 구성했습니다.

SAP 성능

5세대 Intel Xeon Scalable 프로세서에 대한 RHEL 8.8 SAP HANA 리더십

Red Hat과 Intel은 오랜 협업의 역사를 바탕으로 다시 한 번 협력하여 엔터프라이즈 데이터센터와 그 이상에 최첨단 성능을 제공했습니다. Red Hat의 개발 및 성능 엔지니어링 팀은 Red Hat Enterprise Linux의 GA 릴리스 이전에 다양한 벤치마크를 실행하여 1년 이상 확장 가능한 새로운 프로세서의 하드웨어 지원 및 검증 작업을 진행해 왔습니다.

더 높은 코어당 성능, 더 큰 최종 레벨 캐시, 더 빠른 메모리, 워크로드에 최적화된 코어와 결합된 스토리지는 전반적인 시스템 성능에 도움이 됩니다. 성능을 입증하고 SAP HANA 애플리케이션 및 워크로드에 대한 추가 확장성 및 사이징 정보를 제공하기 위해 SAP는 SAP HANA Standard Application Benchmark[1]의 BWH(Business Warehouse) 에디션을 도입했습니다. 현재 버전 3에 있는 이 벤치마크는 다양한 분석 요구 사항을 가진 다양한 사용자를 시뮬레이션하고, 아래에 정의된 세 가지 벤치마크 단계 각각과 관련된 핵심 성과 지표(KPI)를 측정합니다.

  1. 데이터 로드 단계, 데이터 대기 시간 및 로드 성능 테스트(낮을수록 좋음)
  2. 쿼리 처리량 단계, 중간 정도의 복잡한 쿼리로 쿼리 처리량 테스트(높을수록 좋음)
  3. 쿼리 런타임 단계, 매우 복잡한 쿼리 실행 성능 테스트(낮을수록 좋음)

Red Hat Enterprise Linux(RHEL)는 위의 벤치마크에 대한 최근간행물에서 사용되었습니다. 특히, 5세대 Intel Xeon Scalable 프로세서가 탑재된 Dell PowerEdge R760 서버를 사용하여 두 가지 별도의 초기 레코드 크기(13억 및 26억 레코드)를 확인한 결과, Red Hat Enterprise Linux에서 워크로드를 실행하면 이전 세대 Intel에 비해 상당한 성능 향상을 제공할 수 있음이 입증되었습니다. 서버(표 1 참조).

표 1. SAP NetWeaver 7.50 및 SAP HANA 2.0에서 SAP BW Edition for SAP HANA Standard Application Benchmark, Version 3를 실행하는 스케일업 카테고리의 결과

 

이니셜

레코드

(십억)

1단계

(lower is better)

2단계

(higher is better)

3단계

(lower is better)

Red Hat Enterprise Linux 8.8 [2]

2.6

7,083초

13,410

68초

SUSE Linux Enterprise Server 15 [3]

2.6

10,404초

9,917

76초

5세대 Intel Xeon/Red Hat Enterprise Linux의 장점

 

31.9%

35.2%

10.5%

 

[1] SAP 결과, 2023년 3월 1일 현재, SAP 및 SAP HANA는 독일 및 기타 여러 국가에서 SAP AG의 등록 상표입니다. 자세한 내용은 www.sap.com/benchmark 참조

[2] Dell PowerEdge R760(2 프로세서/128코어/256스레드, Intel Xeon
Platinum 8592+ 프로세서, 1.9GHz, 80KB L1 캐시 및 코어당 2048KB L2 캐시, 프로세서당 320MB L3 캐시, 1536GB 주 메모리).인증 번호 #2023076

[3] Atos BullSequana SH20(2 프로세서/120코어/240스레드, Intel Xeon
Platinum 8490H 프로세서, 1.9GHz, 코어당 80KB L1 캐시 및 2048KB L2 캐시, 112.5MB L3 프로세서당 캐시, 1024GB 주 메모리). 인증 번호 #2023028

 

또한, 13억 개의 초기 레코드에 대한 데이터 세트를 사용한 Dell EMC PowerEdge R760 서버가 Red Hat Enterprise Linux에서 실행되었으며, 벤치마크 KPI 3개 중 2개에서 유사하게 구성된 서버를 능가했습니다. 더불어, 더 향상된 데이터세트 로드 시간과 복잡한 쿼리 런타임을 기록했습니다(표 2 참조).

표 2. SAP NetWeaver 7.50 및 SAP HANA 2.0에서 SAP BW Edition for SAP HANA Standard Application Benchmark, Version 3를 실행하는 스케일 업 카테고리의 결과

 

초기 레코드(십억)

1단계

(lower is better)

2단계

(higher is better)

3단계

(lower is better)

Red Hat Enterprise Linux 8.8 [4]

1.3

6,069초

17,846

65초

SUSE Linux Enterprise Server 15 [5]

1.3

8,041초

14,288

61초

5세대 Intel Xeon/Red Hat Enterprise Linux의 장점

 

24.5%

24.9%

-6.6%

Dell PowerEdge R760(2 프로세서/128코어/256스레드, Intel Xeon
Platinum 8592+ 프로세서, 1.9GHz, 코어당 80KB L1 캐시및 2048KB L2 캐시, 프로세서당 320MB L3 캐시, 1536 GB 주 메모리).인증 번호 #2023075

[5] Atos BullSequana SH20(2 프로세서/120코어/240스레드, Intel Xeon
Platinum 8490H 프로세서, 1.9GHz, 코어당 80KB L1 캐시 및 2048KB L2 캐시, 112.5MB L3 프로세서당 캐시, 1024GB 주 메모리).인증 번호 #2023026

 

이러한 결과는 OEM 파트너와 ISV가 상호 고객에게 고성능 솔루션을 제공할 수 있도록 지원하려는 Red Hat의 노력을 보여주며, Red Hat과 Dell의 긴밀한 협력 관계를 보여줍니다. 협업을 통해 SAP와 함께 SAP HANA를 위한 인증된 단일 소스 솔루션을 개발했습니다. 단일 서버 및 대규모 스케일 아웃 구성으로 제공되는 Dell의 솔루션은 Red Hat Enterprise Linux for SAP Solutions에 최적화되어 있습니다.

TPC-H @ SF =10000

또 다른 산업 표준 벤치마크는 TPC(Transaction Processing Council)의 TPC-H 의사 결정 지원 벤치마크입니다.

그 결과, TPC-H 벤치마크 @ SF= 10000에서 HPE ProLiant DL380 클래스 시스템의 강력한 성능을 보여주며, 쿼리/시간(QphH)에서 17.9%의 성능 향상과 31.4%의 가격 성능 향상(가격/QphH)을 기록했습니다. 감사된 TPC-H 결과는 HPE에서 실행되었으며, Microsoft SQLserver 2022 64비트와 5세대 Intel Xeon SP를 사용해 RHEL9.3에서 실행한 결과로, 동일한 SQLserver 2022와 Microsoft Windows Server 2022 Standard Edition 운영 체제를 사용하는 4세대 Intel Xeon SP와 비교되었습니다. RHEL9.3와 5세대 Intel Xeon SP의 조합은 서버와 운영 체제를 업그레이드하여 #1 비클러스터 10,000GB TPC-H 성능 결과를 달성한 가치를 보여줍니다. [6]

TPC -H w/ HPE DB @ 10TB SF = 10000

       

스폰서

System

성능(QphH)

가격/ kQphH

시스템 가용성

제출 날짜

DB 소프트웨어 이름

OS 소프트웨어 이름

이전 4세대 Intel Xeon 프로세서

HPE ProLiant DL380 Gen11

2,028,444

821.80 USD

5/1/2023

2/8/2023

Microsoft SQL Server 2022 Enterprise Edition 64비트

Microsoft Windows Server 2022 Standard Edition

신제품 5세대 Intel Xeon 프로세서

HPE ProLiant DL380 Gen11

2,391,511

625.77 USD

6/30/2024

1/25/2024

Microsoft SQL Server 2022 Enterprise Edition 64비트

Red Hat Enterprise Linux Server Release 9.3

Speedup Gen5/Gen4

 

17.9%

31.4%

    

Intel® AMX를 통한 RHEL 9.4(베타) AI/ML 및 컴퓨팅 성능

PyTorch 및 TensorFlow에 대한 PTS(Phoronix Test Suite) 벤치마크를 사용하여 이전 4세대 Intel Xeon 프로세서[8]와 성능을 비교하여 AI/ML 기능을 수행하는 5세대 Intel Xeon 프로세서[7]를 살펴봅니다. Neural Magic DeepSparse 및 Intel® OpenVINO™ 테스트 제품군 이 4개의 벤치마크 제품군에는 100개 이상의 하위 테스트가 있습니다. 이러한 결과를 재현하려면 [9]를 참조하십시오.

우리는 또한 RHEL 9.4 베타 시스템에서 apples to apples 비교(동일한 조건에서 공정하게 비교)를 위해 SPEC CPU Base Rate(추정치)와 일부 2차원 FFTW와 같은 일반적인 CPU 컴퓨팅 벤치마크를 실험실 시스템에서 실행했습니다.

(SPEC CPU Base Rate 결과는 공식 실행이 아닙니다. ic2024.0.2-lin-sapphirerapids-rate-20231213.cfg 구성으로 Intel 바이너리를 사용했습니다.)

결과는 즉시 사용 가능한 성능 향상을 반영합니다. 벤치마크에는 컴파일러가 자동으로 감지할 수 있는 것 이상의 5세대 Intel Xeon SP 특정 튜닝 또는 최적화가 없습니다. 결과에 따르면 4세대 Intel Xeon SP에 비해 5세대 Intel Xeon SP 평균 속도 향상 지수는 1.07~1.22이며, 최대 속도 향상 범위는 1.19~1.89입니다.

Graph comparing Average and Max Speedup

요약

Red Hat 성능 엔지니어링 팀은 Intel과 협력하여 하드웨어 공급업체가 시스템을 생산에 출하하기 전에 Red Hat Enterprise Linux의 성능 기능을 보장합니다. 이 블로그에서는 Intel의 5세대 기능의 여러 가지 특징을 다뤘습니다. 여기에는 더 높은 CPU 수, 더 빠른 DDR5 메모리, 더 큰 3차 캐시 및 향상된 프로세서 간 대역폭이 포함됩니다. 이 모든 기능은 RHEL 8.8과 RHEL 9.2의 출시 버전에서 지원됩니다. 우리는 OEM들이 SAP[1] 산업 표준 벤치마크와 TPC[6]에서 이러한 기능을 사용하여 뛰어난 결과를 낸 방법을 공유했습니다. 또한 RHEL 9.4 베타에서 5세대 Intel Xeon SP와 4세대 Intel Xeon SP를 비교한 CPU 작업 부하 및 AI/ML 벤치마크에서 성능 향상을 확인했습니다.

Intel과 Red Hat의 협업은 우리의 기능을 확장하는 데 도움이 되었으며, 향후 RHEL 버전에서 혁신적인 기능을 계속 제공할 예정입니다. 앞으로도 고객과 파트너에게 신뢰받는 운영 체제가 되기를 바랍니다.

자세히 알아보기


[6] TPC 및 TPC-H는 Transaction Processing Performance Council의 상표입니다. 모든 제3사 마크는 해당 소유자의 자산입니다. 참조:https://www.tpc.org/tpch/results. 모든 비교 및 주장은 2024년 3월 15일 기준. 10,000GB 결과로 필터링됨: https://www.tpc.org/tpch/results/tpch_perf_results5.asp?resulttype=nonc…

[7] 5세대 Intel Xeon SP 하드웨어 구성

Processor:    2 x Intel Xeon Platinum 8592+ @ 3.90GHz (128 Cores / 256 Threads)
Motherboard:  Intel D50DNP1SBB (SE5C7411.86B.9533.D01.2310110651 BIOS)
Memory:       1008 GB @ 5800 MT/s
Architecture:            x86_64
 CPU op-mode(s):        32-bit, 64-bit
 Address sizes:         52 bits physical, 57 bits virtual
 Byte Order:            Little Endian
CPU(s):                  256
 On-line CPU(s) list:   0-255
Vendor ID:               GenuineIntel
 BIOS Vendor ID:        Intel(R) Corporation
 Model name:            INTEL(R) XEON(R) PLATINUM 8592+
   BIOS Model name:     INTEL(R) XEON(R) PLATINUM 8592+
   CPU family:          6
   Model:               207
   Thread(s) per core:  2
   Core(s) per socket:  64
   Socket(s):           2
   Stepping:            2
   CPU(s) scaling MHz:  100%
   CPU max MHz:         3900.0000
   CPU min MHz:         800.0000
   BogoMIPS:            3800.00
Flags:
   fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht
   tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc
   cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm
   pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch
   cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid
   ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma
   clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc
   cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window
   hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg
   tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk
   pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
 Virtualization:        VT-x
Caches (sum of all):     
 L1d:                   6 MiB (128 instances)
 L1i:                   4 MiB (128 instances)
 L2:                    256 MiB (128 instances)
 L3:                    640 MiB (2 instances)
NUMA:
 NUMA node(s):          4
 NUMA node0 CPU(s):     0-31,128-159
 NUMA node1 CPU(s):     32-63,160-191
 NUMA node2 CPU(s):     64-95,192-223
 NUMA node3 CPU(s):     96-127,224-255
Vulnerabilities:         
 Gather data sampling:  Not affected
 Itlb multihit:         Not affected
 L1tf:                  Not affected
 Mds:                   Not affected
 Meltdown:              Not affected
 Mmio stale data:       Not affected
 Retbleed:              Not affected
 Spec rstack overflow:  Not affected
 Spec store bypass:     Mitigation; Speculative Store Bypass disabled via prctl
 Spectre v1:            Mitigation; usercopy/swapgs barriers and __user pointer sanitization
 Spectre v2:            Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
 Srbds:                 Not affected
 Tsx async abort:       Not affected

[8] 4세대 Intel Xeon SP 하드웨어 구성

Processor:   2 x Intel Xeon Platinum 8480+ @ 3.80GHz (112 Cores / 224 Threads)
Motherboard: Dell 0VRV9X (1.3.2 BIOS)
Memory:      2016 GB @ 4800 MT/s
Architecture:            x86_64
 CPU op-mode(s):        32-bit, 64-bit
 Address sizes:         46 bits physical, 57 bits virtual
 Byte Order:            Little Endian
CPU(s):                  224
 On-line CPU(s) list:   0-223
Vendor ID:               GenuineIntel
 BIOS Vendor ID:        Intel
 Model name:            Intel(R) Xeon(R) Platinum 8480+
   BIOS Model name:     Intel(R) Xeon(R) Platinum 8480+
   CPU family:          6
   Model:               143
   Thread(s) per core:  2
   Core(s) per socket:  56
   Socket(s):           2
   Stepping:            8
   CPU(s) scaling MHz:  98%
   CPU max MHz:         3800.0000
   CPU min MHz:         800.0000
   BogoMIPS:            4000.00
Flags:
   fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht 
   tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc 
   cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm 
   pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch 
   cpuid_fault epb cat_l3 cat_l2 cdp_l3 cdp_l2 ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow flexpriority ept vpid 
   ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma 
   clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc 
   cqm_mbm_total cqm_mbm_local split_lock_detect avx_vnni avx512_bf16 wbnoinvd dtherm ida arat pln pts hwp hwp_act_window 
   hwp_epp hwp_pkg_req vnmi avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg 
   tme avx512_vpopcntdq la57 rdpid bus_lock_detect cldemote movdiri movdir64b enqcmd fsrm md_clear serialize tsxldtrk 
   pconfig arch_lbr ibt amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Virtualization features:
 Virtualization:        VT-x
Caches (sum of all):
 L1d:                   5.3 MiB (112 instances)
 L1i:                   3.5 MiB (112 instances)
 L2:                    224 MiB (112 instances)
 L3:                    210 MiB (2 instances)
NUMA:
 NUMA node(s):          2
 NUMA node0 CPU(s):     0,2,4,6,8, . . .
 NUMA node1 CPU(s):     1,3,5,7,9, . . .
Vulnerabilities:
 Gather data sampling:  Not affected
 Itlb multihit:         Not affected
 L1tf:                  Not affected
 Mds:                   Not affected
 Meltdown:              Not affected
 Mmio stale data:       Not affected
 Retbleed:              Not affected
 Spec rstack overflow:  Not affected
 Spec store bypass:     Mitigation; Speculative Store Bypass disabled via prctl
 Spectre v1:            Mitigation; usercopy/swapgs barriers and __user pointer sanitization
 Spectre v2:            Mitigation; Enhanced / Automatic IBRS, IBPB conditional, RSB filling, PBRSB-eIBRS SW sequence
 Srbds:                 Not affected
 Tsx async abort:       Not affected

[9] 컨테이너에서 Phoronix-Test-Suite 사용

PTS 프레임워크는 성능 테스트를 실행하는 매우 편리한 방법이며, 비교에 사용할 수 있는 많은 기록된 결과가 있는 대규모 에코시스템을 갖추고 있습니다. PTS 테스트를 실행하는 방법을 설명하는 공식 지침을 포함한 공식 정보는 Phoronix Test SuiteOpenBenchmarking.org를 참조하십시오.

Red Hat은 호스트 시스템 환경에 대한 실수로 인한 수정을 방지하고 반복된 각 시도에 대해 클린 슬레이트를 적용하기 위해 Centos Stream 9 컨테이너(RHEL 9.4 베타 호스트에서)에서 AI/ML 관련 테스트를 실행했습니다.

시스템에서 AI/ML 관련 테스트 결과를 재현하는 단계는 다음과 같습니다.

  1. podman run -it --rm --net=host --privileged centos:stream9 /bin/bash
  2. sed -i "/\[crb\]/,+9s/enabled=0/enabled=1/" /etc/yum.repos.d/centos.repo
  3. dnf -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm
  4. dnf -y install atlas-devel autoconf automake binutils blas blas-devel boost-devel boost-thread bzip2 cmake expat-devel findutils gcc gcc-c++ gcc-gfortran gflags-devel git glog-devel gmock-devel gzip hdf5-devel iputils leveldb-devel libquadmath-devel libusb-devel libusbx-devel lmdb-devel make meson nfs-utils ninja-build openblas-devel opencv opencv-devel openssl-devel patch pciutils php-cli php-json php-xml procps-ng protobuf-compiler protobuf-devel python3 python3-devel python3-pip python3-yaml snappy-devel tar unzip vim-enhanced wget xz zip
  5. At this point you might mount a shared volume with phoronix-test-suite already installed, or you can just download and unpack it in the container with steps like these:
    1. wget https://phoronix-test-suite.com/releases/phoronix-test-suite-10.8.4.tar.gz
    2. tar xvzf phoronix-test-suite-10.8.4.tar.gz
    3. cd phoronix-test-suite
  6. ./phoronix-test-suite  install      deepsparse openvino pytorch tensorflow
  7. ./phoronix-test-suite  benchmark    deepsparse openvino pytorch tensorflow

저자 소개

Michey is a member of the Red Hat Performance Engineering team, and works on bare metal/virtualization performance and machine learning performance.. His areas of expertise include storage performance, Linux kernel performance, and performance tooling.

Read full bio
UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Original series icon

오리지널 쇼

엔터프라이즈 기술 분야의 제작자와 리더가 전하는 흥미로운 스토리