Dell PowerEdge R770 리뷰: Intel Xeon 6 CPU, OCP DC-MHS 모듈 방식, 뛰어난 성능, 유연성, 고밀도 2U 섀시에 탑재된 AI 지원.
Dell의 PowerEdge R7x0 시리즈 서버는 오랫동안 데이터 센터의 초석이었으며, 다재다능한 2U 폼 팩터에서 뛰어난 빌드 품질, 사려 깊은 디자인, 성능, 밀도 및 안정성으로 유명합니다. 이러한 서버는 끊임없이 변화하는 요구 사항을 충족하기 위해 발전해 왔습니다. 이제 Dell PowerEdge R770이 출시되면서 이 시리즈는 상당한 도약을 이룹니다.
TR770은 Xeon 6 및 6500 P 및 E 코어 프로세서를 탑재한 Intel의 새로운 Xeon 6700 프로세서 제품군을 선보입니다. Dell이 주류 서버 라인에서 OCP 데이터 센터 모듈형 하드웨어 시스템(DC MHS) 표준을 처음으로 완전히 채택한 것입니다. 이 두 가지 변경 사항은 함께 기능과 디자인 철학에서 상당한 진화를 약속합니다.
현대 데이터 센터 수요 충족
R770의 출시는 데이터 센터가 엄청난 압박에 직면했을 때 이루어졌습니다. 작업 부하가 점점 더 다양하고 까다로워지고 있습니다. 데이터의 끊임없는 성장은 강력한 분석 및 데이터베이스에 대한 필요성을 부추깁니다. 복잡한 모델을 훈련하는 것부터 실시간 추론을 구축하는 것까지, 인공 지능은 더 이상 틈새 시장 애플리케이션이 아니라 상당한 컴퓨팅 파워와 전문화된 가속을 필요로 하는 핵심 비즈니스 드라이버입니다.
동시에 에너지 효율성과 총소유비용 최적화에 집중하고 있습니다. 나아가 업계는 혁신을 촉진하고 상호 운용성을 향상시키며 잠재적으로 공급업체 잠금을 줄이기 위해 개방형 표준을 점점 더 모색하고 있습니다. 새로운 프로세서 옵션과 OCP DC MHS 채택을 갖춘 R770은 이러한 과제를 정면으로 해결하도록 설계되었습니다.
Intel Xeon 6 P-코어 프로세서
R770 프로세서는 소켓 E6(LGA6700-6500) 플랫폼에 구축된 성능 및 효율성 코어를 통합한 2 및 4710 시리즈를 포함한 Intel Xeon 2 시리즈 프로세서를 활용합니다. 이 리뷰에서는 특히 P 시리즈 SKU에 초점을 맞춥니다.
인텔은 I/O 타일을 하나 또는 두 개의 컴퓨트 타일과 결합하는 타일 기반 설계를 사용하여 이러한 프로세서를 구성합니다. 이를 통해 시리즈 내에서 확장성을 확보할 수 있으며, 두 개의 컴퓨트 타일을 사용하여 최대 86개의 P-코어(XCC), 단일 컴퓨트 타일을 사용하여 최대 48개의 P-코어(HCC) 또는 16개의 P-코어(LCC)까지 구성할 수 있습니다.
이전 세대의 Sapphire 및 Emerald Rapids 프로세서와 비교했을 때, 이러한 프로세서의 주요 차별화 요소는 모든 Xeon 6 프로세서에서 기본 제공 가속기를 보편적으로 사용할 수 있다는 것입니다. 여기에는 암호화 및 압축을 위한 Intel QuickAssist Technology, 데이터 이동을 위한 Intel Data Streaming Accelerator, 데이터베이스 및 분석 가속을 위한 Intel In-Memory Analytics Accelerator, 네트워크 처리 효율성을 위한 Intel Dynamic Load Balancer가 포함됩니다.
메모리와 I/O 대역폭도 상당히 업그레이드되었습니다. Xeon 6700/6500 P-코어 시리즈는 8채널 DDR5 메모리를 지원합니다. 또한 최대 8,800MT/s의 속도를 제공하는 Multiplexed Rank DIMM(MRDIMM)의 길을 열었습니다. I/O 측면에서 이 프로세서는 PCIe 5.0 및 CXL 2.0을 지원합니다. 듀얼 소켓 구성에서 플랫폼은 소켓당 최대 88개의 PCIe 레인(총 176개 레인)을 제공할 수 있습니다.
그리고 P-코어와 E-코어의 차별화에도 불구하고, Xeon 6 제품군은 명령어 세트, BIOS, 드라이버, OS/애플리케이션 지원 및 RAS 기능에서 일관성을 유지하여 다양한 배포 유형에서 통합 및 관리를 간소화합니다. P-코어 변형은 코어당 성능, AI 가속, 높은 메모리 대역폭 및 상당한 I/O가 가장 중요한 워크로드를 목표로 합니다. 까다로운 데이터베이스, HPC 시뮬레이션, 고급 분석 및 광범위한 AI 애플리케이션을 생각해 보세요.
Dell PowerEdge R770 사양
스펙 | Dell PowerEdge R770 |
프로세서 | 프로세서당 최대 6개의 E-코어 또는 144개의 P-코어를 갖춘 86개의 Intel Xeon XNUMX 프로세서 |
메모리 | 32개의 DDR5 DIMM 슬롯, 최대 8TB RDIMM 지원, 최대 6400MT/s 속도, 등록된 ECC DDR5 DIMM만 지원 |
스토리지 컨트롤러 | 내부 부팅: 부팅 최적화 스토리지 서브시스템(BOSS-N1 DC-MHS): HWRAID 1, 2 x M.2 NVMe SSD 또는 M.2 인터포저 보드(DC-MHS): 2 x M.2 NVMe SSD 또는 USB, 내부 컨트롤러: 전면 PERC H965i, 전면 PERC H975i, 전면 PERC H365i |
전면 및 후면 베이 |
|
핫 스왑 전원 공급 장치 |
|
냉각 옵션 | 공기 냉각 및 직접 액체 냉각(DLC는 랙 솔루션이며 작동하려면 랙 매니폴드와 냉각 분배 장치(CDU)가 필요합니다) |
팬 | 고성능 Silver(HPR SLVR) 팬/고성능 Gold(HPR GOLD) 팬, 최대 6개의 핫스왑 가능 팬 |
치수 및 무게 | 높이 – 86.8mm(3.42인치), 너비 – 482mm(18.97인치), 무게 – 28.53kg(62.89파운드), 깊이(후면 I/O 구성의 경우) – 베젤 포함 802.40mm(31.59인치), 베젤 미포함 801.51mm(31.56인치), 깊이(전면 I/O 구성의 경우) – 베젤 미포함 814.52mm(32.07인치) |
폼 팩터 | 2U 랙 서버 |
임베디드 관리 | iDRAC, iDRAC Direct, Redfish를 포함한 iDRAC RESTful API, RACADM CLI, iDRAC 서비스 모듈(iSM), NativeEdge Endpoint, NativeEdge Orchestrator |
베젤 | 옵션 보안 베젤 |
보안 | 암호화된 펌웨어, 휴면 데이터 암호화(로컬 또는 외부 키 관리가 있는 SED), 보안 부팅, 보안 구성 요소 검증(하드웨어 무결성 검사), 실리콘 루트 오브 트러스트, 시스템 잠금, 시스템 잠금(iDRAC10 Enterprise 또는 Datacenter 필요), 섀시 침입 감지, TPM 2.0 FIPS, CC-TCG 인증 |
네트워크 옵션 |
|
GPU 옵션 | 최대 6 x 75W FHHL 또는 최대 2 x 350W DWFL |
포트 | 전면 포트: 1 x USB 2.0 Type C 포트, 1 x USB 2.0 Type A 포트(선택 사항), 1 x Mini-DisplayPort(선택 사항), 1 x DB9 Serial(전면 I/O 구성), 1 x iDRAC 관리용 전용 이더넷 포트; 후면 포트: 1 x iDRAC 관리용 전용 이더넷 포트, 1 x VGA, 2 x USB 3.1 Type A 포트; 내부 포트: 1 x USB 3.1 Type A 포트 |
PCIe |
|
운영 체제 및 하이퍼바이저 | Canonical Ubuntu Server LTS, Hyper-V가 포함된 Microsoft Windows Server, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, vSphere가 포함된 VMware |
Dell PowerEdge R770, OCP DC MHS로 모듈성 수용
Server/DC-MHS – OpenComputer에서 소스
Dell PowerEdge R770은 Open Compute Project의 데이터 센터 모듈식 하드웨어 시스템(OCP DC MHS) 표준을 채택하여 물리적 설계 및 구성 요소 아키텍처 측면에서 주목할 만한 발전과 유연성을 도입했습니다.
R7x0 시리즈의 유산을 이어받은 R770은 다양한 배포 요구 사항을 충족하는 광범위한 구성 옵션을 제공합니다. 이 라인의 중요한 첫 번째 특징은 기존 후면 I/O 구성과 전면 I/O 콜드 아일 액세스 가능 구성 중에서 선택할 수 있다는 점인데, 이는 다양한 데이터 센터 레이아웃과 서비스 요구 사항에 더 큰 유연성을 제공합니다. 스토리지 옵션은 로컬 스토리지가 최소이거나 없는 컴퓨팅 중심 노드부터 스토리지 중심 워크로드를 위한 놀라운 40개 E3.S 드라이브를 지원하는 고밀도 구성까지 다양합니다.
특히 AI와 HPC에 대한 가속 컴퓨팅에 대한 증가하는 수요를 해결하기 위해 R770은 강력한 확장 기능을 자랑합니다. 섀시와 라이저 구성에 따라 서버는 최대 5개의 Gen 16 x3.0 Full-Height, Full-Length(FHFL) PCIe 카드를 수용할 수 있습니다. 또한 두 개의 듀얼 폭 GPU 설치를 지원하여 광범위한 작업에 적합한 플랫폼이 됩니다. 네트워킹 유연성은 OCP 8 메자닌 슬롯을 통해 제공되며 구성에 따라 x16 또는 xXNUMX 카드를 지원합니다.
Dell은 또한 서비스성과 안정성을 개선하기 위한 여러 가지 설계 개선을 구현했습니다. 대표적인 예가 BOSS(Boot Optimized Storage Solution) 카드의 진화입니다. 이전에는 케이블을 통해 연결하고 PCIe 라이저에 내장했던 R770의 BOSS 컨트롤러는 이제 마더보드와 직접 인터페이스하는 OCP 표준화 카드로 구현되어 케이블 복잡성을 제거합니다. 이 새로운 BOSS 컨트롤러는 또한 더 빠른 NVMe M.2 드라이브를 갖추고 있으며 히트싱크를 통합하여 부팅 장치의 최적의 작동 온도와 성능을 보장합니다. 기술자에게 미묘하지만 실용적인 또 다른 개선 사항은 NVRAM 지우기와 같은 기능을 위한 기존 점퍼에서 보다 사용자 친화적인 DIP 스위치로의 전환입니다.
가장 심오한 아키텍처 변화는 OCP DC MHS 표준의 완전한 채택입니다. Dell은 이전 세대에서 OCP 요소를 통합하기 시작했으며, 특히 OCP 3.0 네트워크 어댑터 슬롯을 채택했습니다. R770은 이를 훨씬 더 발전시켰습니다. 주요 구성 요소는 이제 라이저 슬롯과 같은 부품을 포함하는 마더보드로 일반적으로 알려진 호스트 프로세서 모듈(HPM)을 포함하여 OCP 사양을 준수합니다. 현재는 M-XIO 커넥터입니다. M-XIO 커넥터는 라이저 카드에 대한 표준화된 인터페이스를 제공하여 유연성과 업그레이드 가능성을 향상시킵니다. iDRAC은 또한 OCP DC-SCM(Server Control Module)으로 구현됩니다.
또한 R770은 GPU 및 백플레인과 같은 주변 장치 연결을 위한 새로운 PICPWR 전원 커넥터를 도입합니다. 이 커넥터는 전력 공급을 간소화하고 인라인 전력 모니터링을 통합하는 중요한 추가 기능입니다.
이러한 심층적인 통합은 다양한 하위 시스템에서 인터페이스와 폼 팩터를 표준화합니다. Dell은 사용자가 보장된 호환성과 지원을 위해 검증된 구성 요소를 고수해야 한다고 강조하지만, 기본 표준화는 많은 부분을 본질적으로 더 사용자 서비스 가능하고 향후 호환 시스템에서 잠재적으로 상호 교환 가능하게 만듭니다.
경영진 및 iDRAC
Dell PowerEdge R770은 이미 기능이 풍부하고 사랑받는 iDRAC 9를 기반으로 차세대 iDRAC 10을 구축하여 Data Center Secure Control Module(DC-SCM)과 원활하게 통합하여 시스템 관리를 강화합니다. 이 통합을 통해 간소화된 펌웨어 업데이트 및 구성 관리가 가능해져 데이터 센터 전반에서 일관되고 확장 가능한 운영이 보장됩니다. iDRAC 10은 또한 고급 자동화 및 모니터링 기능을 지원하여 IT 관리자가 성능이나 안정성을 손상시키지 않고도 대규모 배포를 효율적으로 관리할 수 있도록 지원합니다..
보안은 R770 관리 기능의 초석이며, Dell은 강력한 사전 부팅 및 부팅 검증 메커니즘을 구현합니다. 실리콘 기반 Root of Trust 기술을 활용하는 iDRAC 10은 BIOS 및 iDRAC를 포함한 모든 펌웨어가 실행 전에 암호화되어 검증되도록 합니다. 이 불변의 하드웨어 기반 보안 조치는 맬웨어 변조 및 공급망 공격으로부터 보호하여 시스템 운영을 위한 안전한 기반을 제공합니다. 또한 R770은 양자 안전 부팅 프로토콜을 통합하여 새로운 암호화 위협을 완화하고 중요한 인프라를 보호하는 역할을 더욱 공고히 합니다..
Dell의 공급망 보안에 대한 의지는 R770의 설계에서 분명히 드러납니다. 이 설계는 포괄적인 신뢰 체인 인증 프로세스를 사용합니다. 각 하드웨어 구성 요소는 제조 중에 내장된 암호화 서명을 사용하여 엄격한 검증을 거칩니다. 이 프로세스는 허가된 펌웨어와 구성 요소만 사용되도록 보장하여 허가되지 않은 수정이나 위조 부품과 관련된 위험을 완화합니다.
AI 공장의 빌딩 블록
R770은 다양한 GPU 및 섀시 구성으로 주문할 수 있어 광범위한 AI 워크로드에 다재다능한 플랫폼이 됩니다. 이러한 유연성과 강력한 스토리지 및 네트워킹 기능은 AI 팩토리에서 AI 솔루션을 배포하는 조직에 매력적인 선택이 됩니다. AI 팩토리는 대규모로 AI 모델을 만들고, 훈련하고, 배포하는 데 필요한 인프라와 도구를 말합니다. 이러한 팩토리는 자율 주행차 및 로봇과 같은 고급 시스템을 개발하는 데 필수적입니다. 방대한 데이터 세트를 효율적으로 처리하는 데 필요한 컴퓨팅 파워와 데이터 파이프라인을 제공하기 때문입니다.
자율 주행차와 로봇 시스템을 개발하려면 실제 시나리오를 반영하는 광범위한 교육 데이터가 필요합니다. NVIDIA의 Cosmos NIM은 이 분야에서 중요한 진전으로, 개발자에게 World Foundational Models와 같은 물리적 AI 시스템의 생성 및 배포를 가속화하는 강력한 툴킷을 제공합니다.
세계 기초 모델 이해
세계 기반 모델(WFM)은 실제 환경을 시뮬레이션하고 다양한 입력을 기반으로 정확한 결과를 예측하는 정교한 신경망입니다. 특정 작업에 초점을 맞춘 기존 AI 모델과 달리 WFM은 물리 및 공간 속성을 포함하여 물리적 세계의 역학을 이해합니다.. 그들은 동작, 힘 및 공간 관계를 정확하게 표현하면서 텍스트 프롬프트, 이미지 또는 기타 입력 데이터로부터 비디오를 생성할 수 있습니다.
NVIDIA Cosmos NIM: 세계적 기초 모델을 위한 발판
NVIDIA의 Cosmos NIM은 세계 기초 모델을 달성하기 위한 중요한 단계입니다. 이를 통해 조직과 AI 연구실은 합성 교육 데이터를 생성하고 이러한 AI 모델을 교육하는 데 필요한 데이터를 효율적으로 확장할 수 있습니다. 우리는 코스모스 예측 텍스트나 비디오 프롬프트에서 세계 상태를 생성하고 프레임을 예측하여 연속적인 동작을 합성하는 일반 모델입니다.
이것은 우리 연구실의 단 한 장의 이미지로 코스모스로 만들 수 있었던 흥미로운 결과입니다. 완벽하지는 않지만, 단 한 장의 이미지로 만들 수 있는 것은 매우 인상적입니다.
R770은 NVIDIA H100과 같은 고성능 GPU를 지원하고, 강력한 스토리지와 네트워킹 기능을 갖추고 있어 AI 솔루션을 구축하려는 조직에 매력적인 선택입니다.
R770의 기능을 활용함으로써 조직은 Cosmos NIM과 같은 AI 모델을 효율적으로 훈련하고 배포하여 자율 주행차와 로봇 시스템의 개발을 가속화할 수 있습니다. R770의 성능과 확장성은 AI 모델 훈련에 필요한 방대한 양의 데이터를 처리하기에 이상적인 플랫폼이며, 다재다능함으로 광범위한 AI 워크로드를 지원할 수 있습니다.
GPU 직접 스토리지
GPU Direct Storage는 CPU와 시스템 메모리를 우회하여 스토리지 장치와 GPU 간에 직접 데이터를 전송할 수 있는 기술입니다. 기존 데이터 전송에서는 데이터가 스토리지에서 CPU 메모리로 읽힌 다음 GPU 메모리로 복사됩니다. 이 프로세스에는 여러 데이터 사본이 포함되어 대기 시간이 증가하고 성능이 저하됩니다. CPU는 병목 현상으로 작용하여 스토리지와 GPU 간의 데이터 전송을 처리해야 합니다. GDS는 스토리지 장치가 GPU 메모리로 데이터를 직접 전송하고 GPU 메모리에서 데이터를 전송하도록 허용하여 이 병목 현상을 제거합니다.
우리는 16개 드라이브로 구성된 스토리지 시스템에서 GDSIO 워크로드 분석을 수행했으며, 스토리지 성능과 PCIe Gen 5 GPU를 포화시키는 기능을 이해하기 위해 사용된 드라이브 수를 점진적으로 늘렸습니다.
GDSIO 읽기 차트는 KIOXIA CD8P SSD의 수를 늘리면 r770에서 총 및 평균 읽기 처리량에 어떤 영향을 미치는지 보여줍니다. 처음에는 드라이브 수가 50.2개에서 5개로 늘어나면 총 읽기 처리량이 빠르게 확장되어 약 16GiB/초에 도달합니다. 이는 시스템이 데이터 로딩을 위해 4~XNUMX개의 드라이브만으로 PCIe Gen XNUMX xXNUMX을 포화시킬 수 있음을 시사합니다. XNUMX개 드라이브를 넘어서면 총 처리량이 정점에 도달하여 추가 드라이브가 크게 개선되지 않음을 나타냅니다. 한편, 드라이브당 평균 읽기 처리량은 최대 XNUMX개 드라이브까지는 안정적으로 유지되지만 더 많은 드라이브가 추가됨에 따라 감소합니다. 드라이브당 성능이 이렇게 감소하는 이유는 더 많은 드라이브가 사용 가능한 PCIe 버스 대역폭을 공유하고 개별 드라이브 읽기가 감소하기 때문입니다.
반면, 이러한 드라이브의 쓰기 성능은 읽기 성능보다 훨씬 낮습니다. 16개 드라이브가 모두 46.7GiB/s의 쓰기 대역폭을 달성하는 데 걸렸고, 드라이브의 평균 쓰기는 거의 일정하게 유지되었습니다. 이것이 KIOXIA CD8 포트폴리오의 낮은 쓰기 성능 용량이라는 점을 감안할 때, 대용량 버전이나 다른 PCIe Gen5 SSD가 더 나은 성과를 낼 것입니다.
Dell PowerEdge R770 벤치마킹
벤치마크로 넘어가면, R770은 Dell의 주력 메인라인 시스템이며, 따라서 다양한 환경에 배포될 것입니다. 따라서 이 플랫폼에 대한 포괄적인 벤치마크 세트를 실행하여 플랫폼이 다양한 환경에서 어떻게 수행되는지 알아보았습니다. Lenovo ThinkSystem SR630 V4는 일부 테스트에서 비교되어 최고급 E-core와 P-core CPU의 차이를 보여주었습니다.
시스템 구성
- CPU : 2x Intel Xeon 6787P(각각 86코어)
- 램: 32x Micron 64GB 듀얼 랭크 DDR5 6400MT/s 총 메모리: 2TB
- 전원 공급 장치: 2x 델타 1500W
- GPU : TGI 벤치마크용 1x NVIDIA H100, 나머지 테스트용 1x NVIDIA L4
- NIC: DELL BRCM 4P 25G SFP 57504S OCP NIC
- BOSS 카드: BOSS-N1 DC-MHS 디스크 0 & 1 SK hynix 480GB Dell NVMe ISE PE9010 RI M.2 480GB
- 디스크: 백플레인 0의 5-1: Samsung 6.4TB, Dell NVMe PM1745 MU E3.S 6.4TB
AI 작업 부하 성능
텍스트 생성 추론 벤치마크
Text Generation Inference(TGI)는 Hugging Face에서 개발한 고성능 LLM 추론 서버입니다. LLM의 배포와 소비를 최적화하도록 설계되어 프로덕션 환경에 이상적인 선택입니다. TGI는 다양한 오픈소스 LLM을 지원하고 텐서 병렬 처리, 토큰 스트리밍, 연속 배칭과 같은 기능을 제공하여 성능과 효율성을 향상시킵니다.
텍스트 생성 추론 – QwQ 32B
TGI의 벤치마킹 기능은 다양한 구성 및 작업 부하에서 성능을 평가하는 데 사용됩니다. TGI의 벤치마킹 기능은 프로덕션 설정에서 LLM을 제공하는 복잡성을 고려하므로 실제 성능을 보다 정확하게 표현합니다.
LLM을 사용하여 텍스트를 생성하는 데는 사전 채우기 단계와 디코딩 단계라는 두 가지 기본 단계가 포함됩니다. 사전 채우기 단계는 LLM이 입력 프롬프트를 처리하여 필요한 중간 표현을 생성하는 초기 단계입니다. 이 단계는 모델을 통한 단일 전방 패스에서 전체 입력 프롬프트를 처리해야 하므로 계산 집약적입니다.
사전 채우기 단계에서 입력 프롬프트는 토큰화되어 LLM이 처리할 수 있는 형식으로 변환됩니다. 그런 다음 LLM은 입력 토큰에 대한 정보를 저장하는 KV 캐시를 계산합니다. KV 캐시는 출력 토큰 생성을 용이하게 하는 중요한 데이터 구조입니다.
이와 대조적으로, 디코드 단계는 LLM이 사전 채우기 단계에서 생성된 중간 표현을 기반으로 한 번에 하나씩 출력 토큰을 생성하는 자기 회귀 프로세스입니다. 디코드 단계는 사전 채우기 단계에서 생성된 KV 캐시에 크게 의존하며, 이는 일관되고 맥락적으로 관련성 있는 출력 토큰을 생성하는 데 필요한 맥락을 제공합니다.
사전 충전 단계
배치 크기가 1에서 32로 증가함에 따라 세 모델 모두의 지연 시간이 증가합니다. DeepSeek-R1-Distill-Qwen-32 B의 지연 시간은 배치 크기가 29.97일 때 1ms에서 배치 크기가 76.95일 때 32ms로 증가합니다. 마찬가지로 GEMMA-3-27B-IT와 Qwen/QwQ-32B의 지연 시간은 각각 51.84ms와 29.90ms에서 79.58ms와 76.30ms로 증가합니다.
반면, 배치 크기가 증가함에 따라 토큰 비율은 상당히 개선됩니다. 배치 크기가 1일 때, 세 모델의 토큰 비율은 초당 192.95~334.46토큰입니다. 배치 크기가 32일 때, DeepSeek-R4158.67-Distill-Qwen-4021.40B, GEMMA-4194.13-1B-IT, Qwen/QwQ-32B의 경우 각각 초당 3, 27, 32토큰으로 급증합니다.
배치 크기 | 딥시크-R1-디스틸-큐웬-32B | 젬마-3-27B-IT | 웬/QwQ-32B | |||
---|---|---|---|---|---|---|
대기 시간 (밀리 초) | 토큰 비율 | 대기 시간 (밀리 초) | 토큰 비율 | 대기 시간 (밀리 초) | 토큰 비율 | |
1 | 29.97 | 333.64 | 51.84 | 192.95 | 29.90 | 334.46 |
2 | 30.21 | 662.09 | 52.55 | 380.61 | 29.95 | 667.80 |
4 | 32.40 | 1234.72 | 52.62 | 760.12 | 32.12 | 1245.47 |
8 | 36.98 | 2163.46 | 52.66 | 1519.19 | 36.69 | 2180.66 |
16 | 51.63 | 3125.50 | 60.96 | 2624.64 | 51.29 | 3147.61 |
32 | 76.95 | 4158.67 | 79.58 | 4021.40 | 76.30 | 4194.13 |
디코드 단계
사전 채우기 단계와 달리, 디코드 단계 동안의 지연 시간은 다양한 배치 크기에 걸쳐 비교적 안정적으로 유지됩니다. 예를 들어, DeepSeek-R1-Distill-Qwen-32 B의 지연 시간은 배치 크기가 27.14에서 29.52로 증가함에 따라 2ms에서 32ms 사이입니다.
디코드 단계 동안의 토큰 속도는 배치 크기가 증가함에 따라 개선되지만 사전 채우기 단계 동안만큼 극적으로 개선되지는 않습니다. 배치 크기가 1일 때 토큰 속도는 DeepSeek-R36-Distill-Qwen-37B 및 Qwen/QwQ-1B의 경우 초당 약 32-32개 토큰이고 GEMMA-33.96-3B-IT의 경우 초당 27개 토큰입니다. 배치 크기가 32일 때 토큰 속도는 각각 초당 1083.83개, 873.39개 및 1084.89개 토큰으로 증가합니다.
배치 크기 | 딥시크-R1-디스틸-큐웬-32B | 젬마-3-27B-IT | 웬/QwQ-32B | |||
---|---|---|---|---|---|---|
대기 시간 (밀리 초) | 토큰 비율 | 대기 시간 (밀리 초) | 토큰 비율 | 대기 시간 (밀리 초) | 토큰 비율 | |
1 | 27.24 | 36.71 | 29.45 | 33.96 | 27.24 | 36.71 |
2 | 27.14 | 73.70 | 30.80 | 64.93 | 27.14 | 73.69 |
4 | 27.50 | 145.46 | 31.33 | 127.65 | 27.47 | 145.62 |
8 | 27.91 | 286.61 | 32.54 | 245.83 | 27.90 | 286.78 |
16 | 28.31 | 565.07 | 34.71 | 460.92 | 28.44 | 562.56 |
32 | 29.52 | 1083.83 | 36.64 | 873.39 | 29.50 | 1084.89 |
이는 사전 채우기 단계에서 전체 입력 프롬프트에 대한 초기 숨겨진 상태와 키-값 캐시를 계산하기 때문에 예상한 대로입니다. 이는 대규모 일괄 작업을 동시에 실행할 수 있기 때문에 GPU를 잘 포화시킬 수 있습니다. 프롬프트를 처리한 후 모델은 일반적으로 한 번에 하나씩 새 토큰을 생성합니다. 각 단계에서 모델은 이전 토큰과 캐시된 숨겨진 상태를 가져와 다음 토큰을 생성합니다. 이 단계는 토큰별로 효과적으로 진행되므로 일괄 처리 크기가 작은 경우가 많으므로 GPU가 자주 활용되지 않습니다.
Procyon AI 컴퓨터 비전 벤치마크
실제 머신 비전 작업을 사용하여 Procyon AI 컴퓨터 비전 벤치마크는 CPU, GPU 및 AI 가속기에서 AI 추론 성능을 평가합니다. TensorRT, OpenVINO, SNPE, Windows ML 및 Core ML과 같은 여러 추론 엔진을 지원하여 효율성, 호환성 및 최적화에 대한 통찰력을 제공합니다.
Procyon AI 컴퓨터 비전 벤치마크 결과도 강력한 AI 추론 성능을 보여줍니다. 이 시스템은 MobileNet V3가 20.64ms, ResNet 50이 22.42ms로 낮은 추론 시간을 달성했습니다. Inception V4와 DeepLab은 각각 65.23ms와 41.37ms로 실행되어 더 복잡한 비전 워크로드를 효과적으로 처리했습니다. 핵심 객체 감지 모델인 YOLO V3는 37.80ms로 처리되어 실시간 AI 애플리케이션에 적합했습니다. 계산 집약적 초고해상도 모델인 REAL-ESRGAN은 1,159.22ms를 기록하여 전체 AI 컴퓨터 비전 점수 81점을 받았습니다.
AI 컴퓨터 비전 (기간이 짧을수록 좋음)(점수가 높을수록 좋음) | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) |
---|---|
MobileNet V3 평균 추론 시간 | 20.64 MS |
ResNet 50 평균 추론 시간 | 22.42 MS |
Inception V4 평균 추론 시간 | 65.23 MS |
DeepLab 평균 추론 시간 | 41.37 MS |
YOLO V3 평균 추론 시간 | 37.80 MS |
REAL-ESRGAN 평균 추론 시간 | 1,159.22 MS |
AI 컴퓨터 비전 종합 점수 | 81 |
해머 DB TPROC-C
또한 HammerDB TPROC-C 벤치마크를 사용하여 11.4.4개 웨어하우스에서 OLTP 워크로드를 시뮬레이션하여 인기 있는 오픈소스 데이터베이스 8.4.4개(MariaDB 5.7.44, MySQL 17.2, MySQL 500, PostgreSQL XNUMX)의 성능을 평가했습니다.
MariaDB는 특히 듀얼 소켓 구성에서 가장 뛰어난 성과를 보였으며, 효과적으로 확장하고 가장 높은 트랜잭션 처리량을 달성했습니다. MySQL 8.4.4는 레거시 5.7.44 버전에 비해 현저한 개선을 보였으며, 최근 릴리스의 개선 사항을 강조했습니다. PostgreSQL 17.2는 일관된 성능을 제공했지만 MariaDB와 MySQL 8.4.4보다 약간 뒤처졌습니다. MariaDB는 단일 소켓에서 3.15만 TPM, 듀얼 소켓에서 5.8만 TPM을 제공하여 두 시나리오 모두에서 나머지보다 성능이 우수했습니다.
성능 비교표(분당 트랜잭션, TPM)
데이터베이스 엔진 | 단일 소켓 TPM | 듀얼 소켓 TPM |
---|---|---|
마리아DB 11.4.4 | 3,150,000 | 5,800,000 |
MySQL의 8.4.4 | 2,850,000 | 5,150,000 |
PostgreSQL 17.2 | 2,700,000 | 4,900,000 |
MySQL의 5.7.44 | 2,300,000 | 4,250,000 |
CPU당 770개의 코어(높은 우선순위와 낮은 우선순위 코어의 혼합)를 포함한 R86의 강력한 하드웨어에도 불구하고, 두 소켓에 분산했을 때 데이터베이스 중 어느 것도 상당한 성능 향상을 보여주지 못했습니다. 이는 더 나은 코어 지역성과 감소된 메모리 지연 시간으로 인해 오픈소스 데이터베이스가 단일 소켓 실행을 선호하는 공통적인 이유를 반영합니다.
이러한 결과를 감안할 때, R770은 단일 인스턴스를 확장하는 것보다 가상화된 환경에서 여러 데이터베이스 인스턴스를 실행하는 데 더 적합합니다. 이 시스템의 아키텍처는 고밀도 혼합 데이터베이스 워크로드를 지원하는 데 이상적이며, 성능 및 효율성 코어를 모두 활용하여 여러 인스턴스에서 일관된 처리량을 제공합니다.
7 - 우편 번호
인기 있는 7-Zip 유틸리티에 내장된 메모리 벤치마크는 압축 및 압축 해제 작업 중에 시스템의 CPU와 메모리 성능을 측정하여 시스템이 데이터 집약적 작업을 얼마나 잘 처리할 수 있는지를 나타냅니다.
7-Zip 벤치마크에서 압축 작업과 관련하여 Dell 시스템은 Lenovo(266.425 GIPS)보다 더 높은 등급(224.313 GIPS)을 받았으며 Dell은 CPU 사용량이 약간 낮았습니다. 그러나 Lenovo는 압축 해제에서 Dell보다 더 높은 등급(288.457 GIPS 대 256.154 GIPS)과 다소 더 높은 CPU 사용량으로 더 나은 성과를 보였습니다. Dell은 전체 총 등급(261.290 GIPS)이 약간 더 높았으며 압축 및 압축 해제 작업 모두에서 더 나은 전반적인 효율성을 보여주었습니다.
7-Zip 압축 및 감압 | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) | 레노버 ThinkSystem SR630 V4(2 x 인텔 제온 6780E | 512GB 램) |
---|---|---|
압축 – 현재 CPU 사용량 | 5267% | 5064% |
압축 – 현재 정격/사용 | 5.061 깁스 | 4.341 깁스 |
압축 - 현재 정격 | 266.591 깁스 | 219.840 깁스 |
압축 - 결과 CPU 사용 | 5270% | 5156% |
압축 - 결과 평가/사용 | 5.056 깁스 | 4.350 깁스 |
압축 - 결과 평가 | 266.425 깁스 | 224.313 깁스 |
압축 해제 – 현재 CPU 사용량 | 5623% | 6184% |
압축 해제 – 현재 정격/사용 | 4.586 깁스 | 4.688 깁스 |
압축 해제 - 현재 등급 | 257.909 깁스 | 289.879 깁스 |
압축 해제 - 결과 CPU 사용량 | 5627% | 6205% |
압축 해제 - 결과 평가/사용 | 4.553 깁스 | 4.649 깁스 |
압축 해제 - 결과 평가 | 256.154 깁스 | 288.457 깁스 |
총계 – 총 CPU 사용량 | 5448% | 5681% |
총계 – 총 평가/사용 | 4.804 깁스 | 4.500 깁스 |
총 - 총 평점 | 261.290 깁스 | 256.385 깁스 |
y-크런처
y-cruncher는 2009년에 출시된 인기 있는 벤치마킹 및 스트레스 테스트 애플리케이션입니다. 이 테스트는 멀티스레드이며 확장 가능하며, Pi 및 기타 상수를 최대 수조 자리까지 계산합니다. 이 테스트에서는 빠를수록 좋습니다. 이 소프트웨어는 고코어 카운트 플랫폼을 테스트하고 단일 및 듀얼 소켓 플랫폼 간의 컴퓨팅 이점을 보여주는 데 매우 효과적이었습니다.
Y-cruncher 벤치마크 결과는 P-코어 CPU를 활용하는 Dell PowerEdge R770과 E-코어 CPU를 탑재한 Lenovo ThinkSystem SR630 V4 사이에 상당한 성능 차이가 있음을 보여줍니다. 특히 데이터 세트 크기가 증가함에 따라 그렇습니다. 이는 어느 시스템이 더 나은지에 대한 것이 아니라 이 작업 부하에서 CPU 유형을 비교하는 방법에 대한 것입니다.
더 작은 계산의 경우 Dell 시스템은 이미 앞서서 1초 만에 2.753억 자릿수의 파이를 계산했고, Lenovo는 5.997초로 두 배 이상 걸렸습니다. 작업 부하가 커지면서 격차가 벌어졌습니다. 10억 자릿수에서 Dell은 34.873초에 완료했고, Lenovo의 81.046초보다 절반도 걸리지 않았습니다. 50억 자릿수 마크에서 Dell은 우위를 유지하여 221.255초 만에 작업을 완료했고, Lenovo는 476.826초가 걸렸으며, Dell은 53% 더 빨랐습니다.
100억 자릿수에서 Lenovo는 현재 512GB RAM 구성으로 인해 테스트를 완료할 수 없었습니다. 2TB RAM으로 Dell은 워크로드를 효율적으로 처리하여 491.737초 만에 완료했습니다.
Y-크런처(기간이 짧을수록 좋음) | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) | 레노버 ThinkSystem SR630 V4(2 x 인텔 제온 6780E | 512GB 램) |
---|---|---|
1 억 | 2.753 초 | 5.997 초 |
2.5 억 | 7.365 초 | 17.573 초 |
5 억 | 16.223 초 | 37.793 초 |
10 억 | 34.873 초 | 81.046 초 |
25 억 | 99.324 초 | 220.025 초 |
50 억 | 221.255 초 | 476.826 초 |
100 억 | 491.737 초 |
블렌더 옵틱스
오픈소스 3D 모델링 애플리케이션입니다. 이 벤치마크는 Blender Benchmark 유틸리티를 사용하여 실행되었습니다. 점수는 분당 샘플이며, 높을수록 좋습니다.
Blender 벤치마크 결과는 특히 CPU 렌더링에서 Dell PowerEdge R770이 Lenovo ThinkSystem SR630 V4보다 성능이 확실히 우수하다는 것을 보여줍니다. CPU Monster 장면에서 Dell은 분당 1,706.002개의 샘플을 달성하여 Lenovo의 분당 19개 샘플보다 1,432.09% 앞서 나갔습니다. CPU Junkshop 테스트는 이러한 격차를 더욱 강조했는데, Dell은 분당 1,169.370개의 샘플을 달성하여 Lenovo의 분당 914.75개 샘플을 28% 앞섰습니다. 마찬가지로 Dell은 CPU Classroom 테스트에서 분당 791.475개의 샘플을 기록한 반면 Lenovo는 분당 656.68개 샘플로 뒤처져 20% 차이가 났습니다.
Lenovo 시스템에는 GPU가 없기 때문에 GPU 기반 렌더링에 참여할 수 없었습니다. Dell의 NVIDIA L4는 Monster의 경우 분당 1,895.71 샘플, 분당 950.42 샘플, 그리고 Classroom의 경우 분당 968.43 샘플의 점수를 보였습니다.
블렌더 CPU 벤치마크 | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) | 레노버 ThinkSystem SR630 V4(2 x 인텔 제온 6780E | 512GB 램) |
---|---|---|
CPU 몬스터(블렌더 4.3) | 1,706.002 샘플/분 | 1432.09 샘플/분 |
CPU 정크샵(블렌더 4.3) | 1,169.370 샘플/분 | 914.75 샘플/분 |
CPU 교실(블렌더 4.3) | 791.475 샘플/분 | 656.68 샘플/분 |
GPU 몬스터(블렌더 4.3) | 1,895.712 샘플/분 | (GPU 없음) |
GPU 정크샵(블렌더 4.3) | 950.424 샘플/분 | (GPU 없음) |
GPU 교실(Blender 4.3) | 968.432 샘플/분 | (GPU 없음) |
Cinebench R23
Cinebench R23 벤치마크 도구는 Cinema 3D 엔진을 사용하여 복잡한 4D 장면을 렌더링하여 시스템의 CPU 성능을 평가합니다. 이는 단일 코어 및 멀티 코어 성능을 측정하여 3D 렌더링 작업을 처리하는 CPU 기능에 대한 포괄적인 보기를 제공합니다.
Cinebench R23에서 벤치마크 결과는 특히 프로세서당 코어 수를 고려할 때 Dell PowerEdge R770과 Lenovo ThinkSystem SR630 V4 간의 CPU 성능에서 눈에 띄는 차이를 강조합니다. 630개의 Intel Xeon 4E 프로세서(프로세서당 2개 코어)가 장착된 Lenovo ThinkSystem SR6780 V144는 CPU 멀티 코어 테스트에서 99,266점을 기록하여 Dell의 74,710점에 비해 Dell보다 우수한 성과를 보였습니다. 이 차이는 Lenovo가 Dell의 288개의 Intel Xeon 2P 프로세서(프로세서당 6787개 코어)에 비해 코어 수(총 86개 코어)가 더 많아 멀티 스레드 작업 부하에서 유리하다는 것을 보여줍니다. 이로 인해 멀티 코어 성능이 제한됩니다.
CPU 단일 코어 테스트에서 Dell은 1,272점을 기록하여 Lenovo의 894점을 앞지르며 더 나은 성과를 보였습니다. 이는 Dell이 코어 수가 적은 데도 불구하고 단일 스레드 효율성이 뛰어나다는 것을 보여줍니다.
Cinebench R23 | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) | 레노버 ThinkSystem SR630 V4(2 x 인텔 제온 6780E | 512GB 램) |
---|---|---|
CPU 멀티 코어 | 74,710 pts | 99,266 pts |
CPU 단일 코어 | 1,272 pts | 894 pts |
MP 비율 | 58.74 X | 111.00 X |
Cinebench 2024
Cinebench 2024는 GPU 성능 평가를 추가하여 R23의 벤치마크 기능을 확장합니다. 계속해서 CPU 성능을 테스트하지만 GPU의 렌더링 작업 처리 능력을 측정하는 테스트도 포함됩니다.
이 업데이트된 벤치마크에서 Dell PowerEdge R770은 GPU 성능에서 12,996점을 기록하여 GPU 가속 렌더링 작업을 처리하는 능력을 강조했습니다. Lenovo ThinkSystem SR630 V4는 전용 GPU가 없으므로 GPU 점수를 기록하지 않았습니다.
CPU 멀티 코어 테스트에서 레노버는 2,884점을 기록하여 델의 2,831점보다 약간 앞섰으며, 이는 레노버의 멀티 코어 성능에서 약간 우위를 점했음을 나타냅니다. CPU 싱글 코어의 경우 델은 레노버를 앞지르며 71점을 기록한 반면 레노버는 53점을 기록하여 코어 수가 적음에도 불구하고 델의 싱글 코어 성능이 더 높음을 보여줍니다.
Cinebench R24 | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) | 레노버 ThinkSystem SR630 V4(2 x 인텔 제온 6780E | 512GB 램) |
---|---|---|
GPU 점수 | 12,996 pts | |
CPU 멀티 코어 | 2,831 pts | 2,884 pts |
CPU 단일 코어 | 71 pts | 53 pts |
MP 비율 | 39.77 X | 54.43 X |
Geekbench 6
Geekbench 6 전체 시스템 성능을 측정하는 크로스 플랫폼 벤치마크입니다. Geekbench Browser를 사용하면 모든 시스템을 비교할 수 있습니다.
Geekbench 6 벤치마크 결과는 Dell PowerEdge R770과 Lenovo ThinkSystem SR630 V4 사이에 명백한 성능 차이가 있음을 보여줍니다. CPU 싱글 코어 테스트에서 Dell은 1,797점으로 Lenovo를 앞지른 반면 Lenovo는 1,173점을 기록하여 Dell의 싱글 코어 성능이 53% 향상되었음을 나타냅니다.
CPU 멀티 코어 테스트에서 Dell은 다시 15,880점으로 선두를 달렸고, Lenovo는 13,868점을 기록하여 Dell이 멀티 코어 성능에서 14% 우위를 점했습니다. 이는 Dell의 Intel Xeon 6787P 프로세서가 특히 멀티 코어의 이점을 얻는 작업에서 전반적으로 뛰어난 컴퓨팅 파워를 제공한다는 것을 시사합니다.
GPU OpenCL 테스트에서는 NVIDIA L148,730 GPU 덕분에 4점을 얻어 Dell의 우위가 더욱 두드러졌습니다.
Geekbench 6 (높을수록 좋음) | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) | 레노버 ThinkSystem SR630 V4(2 x 인텔 제온 6780E | 512GB 램) |
---|---|---|
CPU 단일 코어 | 1,797 | 1,173 |
CPU 멀티 코어 | 15,880 | 13,868 |
GPU OpenCL 점수 | 148,730 | (GPU 없음) |
Blackmagic RAW 속도 테스트
Blackmagic RAW Speed Test는 Blackmagic RAW 코덱을 사용하여 비디오 재생 및 편집을 처리하는 시스템 성능을 측정하도록 설계된 성능 벤치마킹 도구입니다. 시스템이 고해상도 비디오 파일을 얼마나 잘 디코딩하고 재생할 수 있는지 평가하여 CPU 및 GPU 기반 처리에 프레임 속도를 제공합니다.
CPU 기반 테스트에서 Dell PowerEdge R770은 141 FPS를 달성하여 630 FPS를 기록한 Lenovo ThinkSystem SR4 V120보다 성능이 우수했습니다. 이는 Dell 시스템이 Lenovo보다 CPU 기반 비디오 처리를 더 효율적으로 처리한다는 것을 나타냅니다. GPU 기반 테스트의 경우 Dell PowerEdge R770은 NVIDIA GPU의 존재로 인해 157 FPS를 기록했습니다.
Blackmagic RAW 속도 테스트(높을수록 좋음) | Dell PowerEdge R770(2x Intel Xeon 6787P | 2TB Ram) | 레노버 ThinkSystem SR630 V4(2 x 인텔 제온 6780E | 512GB 램) |
---|---|---|
FPS CPU | 141의 FPS | 120의 FPS |
FPS 쿠다 | 157의 FPS | 0 FPS(GPU 없음) |
Blackmagic Disk Speed Test
Blackmagic Disk Speed Test는 드라이브의 읽기 및 쓰기 속도를 벤치마킹하여 특히 비디오 편집 작업의 성능을 추정합니다. 이를 통해 사용자는 스토리지가 4K 또는 8K 비디오와 같은 고해상도 콘텐츠에 충분히 빠른지 확인할 수 있습니다.
Blackmagic 속도 테스트에서 미러링된 SK hynix 770GB Dell NVMe를 탑재한 Dell PowerEdge R480 보스 카드는 3,010.3MB/s의 읽기 속도와 976.3MB/s의 쓰기 속도를 달성했습니다.
결론
Dell PowerEdge R770은 Open Compute Project의 Data Center Modular Hardware System 표준과 최첨단 하드웨어를 채택하여 우리를 정말 흥분시킵니다. OCP DC MHS를 통합하면 모듈성 향상, 서비스성 개선, 표준화 증가를 통한 비용 절감 등 수많은 이점이 있습니다. 이러한 설계 철학은 iDRAC을 OCP DC-SCM으로 구현하는 것부터 포트에 이르기까지 시스템의 모든 측면에서 분명하게 드러납니다.
R770은 또한 인상적인 스토리지 기능을 자랑하며, 단일 40U 섀시에서 최대 3개의 E2.S 드라이브를 지원하여 스토리지 집약적 워크로드에 이상적인 솔루션입니다. 또한, 서버의 유연성은 다양한 구성을 지원하여 더욱 향상되며, 여기에는 Front I/O Cold Aisle Accessible 구성이 포함되어 다양한 데이터 센터 레이아웃과 서비스 가능성 요구 사항에 대한 더 큰 유연성을 제공합니다.
광범위한 GPU와 Intel의 Xeon 6 Performance 코어 CPU를 지원하는 R770은 현대 데이터 센터의 요구 사항을 충족하는 데 적합한 강력하고 다재다능한 서버 플랫폼입니다. 최첨단 하드웨어, 모듈식 설계, 강력한 보안 기능으로 인해 R770은 AI, HPC 및 기존 엔터프라이즈 워크로드를 배포하려는 조직에 매력적인 옵션입니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드