홈페이지 Enterprise 성능 및 탄력성: AI 및 HPC 워크로드를 위한 Graid SupremeRAID

성능 및 탄력성: AI 및 HPC 워크로드를 위한 Graid SupremeRAID

by 케빈 오브라이언

Graid Technology는 SupremeRAID로 특히 AI 및 HPC 워크로드에 대한 새로운 데이터 보호 및 성능 표준을 제시합니다.

Graid Technology의 SupremeRAID는 특히 AI 및 고성능 컴퓨팅(HPC)과 같은 최신 워크로드를 위해 새로운 데이터 보호 및 성능 표준을 설정하여 스토리지 환경을 계속 재정의하고 있습니다. 기존 RAID 구성은 종종 이러한 데이터 집약적 환경의 요구 사항을 충족하는 데 어려움을 겪습니다. 특히 PCIe 버스의 제한으로 인해 제약을 받는 하드웨어 RAID 카드에 의존하는 경우 더욱 그렇습니다. GPU 가속을 활용하여 Graid는 이러한 장벽을 돌파하여 CPU 리소스에 미치는 영향을 최소화하면서 뛰어난 성능을 제공하는 동시에 강력한 RAID 보호를 보장합니다.

AI 및 HPC용 Graid SupremeRAID

기가바이트 S183-SH0-AAV1 서버

AI 및 HPC와 같은 고급 워크로드에서는 JBOD(Just a Bunch of Disks) 및 소프트웨어 RAID(mdadm)와 같은 대체 구성도 일반적으로 사용됩니다. 데이터 손실을 방지하기 위한 체크포인팅과 결합하면 실용적이지만 JBOD는 더 많은 장애 지점을 도입하고 IT 관리자에게 까다로운 복구 프로세스 부담을 줍니다. 소프트웨어 RAID는 데이터 복원력을 제공하지만 RAID 패리티 데이터를 관리하는 데 귀중한 CPU 리소스를 소모하고 많은 영역에서 성능이 저하됩니다. 반면 Graid의 SupremeRAID는 속도나 안정성을 손상시키지 않으면서 데이터 관리를 단순화하는 간소화된 고성능 솔루션을 제공합니다.

Graid SupremeRAID 카드

이 논문에서는 Graid의 SupremeRAID, JBOD, 소프트웨어 RAID 간의 성능을 비교하여 Graid가 성능과 데이터 보호가 가장 중요한 IT 환경에서 더 뛰어난 선택으로 떠오르는 이유를 설명합니다.

성능 테스트베드

우리는 사용 기가바이트 S183-SH0-AAV1 이 테스트 베드에는 듀얼 Intel 5세대 확장 가능 1U 서버가 있습니다. 우리는 충분한 컴퓨팅 파워를 갖춘 컴팩트한 서버를 찾고 싶었고, 서버가 단일 Graid SupremeRAID SR-32에서 지원되는 최대치인 1개의 E1010.S SSD를 지원한다는 것이 우연히 발견되었습니다. Gigabyte 서버에는 32개의 DIMM 슬롯이 있으며, 96GB RDIMM과 256GB 3DS RDIMM을 지원합니다. 이 플랫폼은 후면에 5개의 FHHL PCIe Gen1 슬롯을 제공하여 고속 네트워킹 연결을 위한 다양한 옵션을 제공합니다. 또한, 마더보드는 듀얼 1GbE 온보드 네트워킹과 XNUMXGbE 관리 포트를 제공합니다.

그레이드 HPC DRAM

킹스톤 96GB DDR5-5600 ECC RDIMM

서버는 32개의 DIMM 슬롯을 지원하지만, 이 경우 최대 DRAM 속도를 위해 채널당 16개의 DIMM(1DPC)인 1개의 Kingston DIMM을 채웠습니다. 작업 부하가 더 큰 풋프린트를 요구하는 경우 고밀도 DIMM 또는 2DPC 구성으로 전환할 수 있지만, 후자는 DRAM 속도를 4400MT/s로 낮춥니다. The Kingston 96GB DDR5-5600 ECC RDIMM 이 서버에서는 달러당 성능이 뛰어나므로 128GB DIMM의 비용 프리미엄 없이 고속 DRAM과 적당한 DRAM 풋프린트가 필요한 워크로드에 매력적인 옵션입니다. 이 모듈은 집약적인 HPC 및 AI 워크로드에 두 가지 장점을 모두 제공합니다. 

KIOXIA 7.68TB XD7P SSD

32개의 E1.S SSD 베이에는 KIOXIA 7.68TB XD7P SSD가 들어 있습니다. 이 드라이브는 PCIe Gen4 x2 인터페이스를 사용하고 최대 7.2GB/s 읽기 및 4.8GB/s 쓰기 대역폭을 제공합니다. KIOXIA는 이러한 드라이브를 E1.S SSD의 밀도 이점이 유익한 집약적 하이퍼스케일 및 HPC 워크로드를 위해 특별히 설계했습니다. 중요한 점은 KIOXIA가 XD7P의 열 설계가 무거운 부하에서도 이 고밀도 서버 설계를 따라갈 준비가 되었다는 것입니다.

기가바이트 S183-SH0-AAV1 서버 후면 I/O

테스트 시스템 사양

  • 기가바이트 S183-SH0-AAV1 서버
  • 2 x Intel Xeon Platinum 8592+ CPU(64코어, 1.9GHz)
  • 16GB Kingston DDR96-5 5600개
  • 32 x KIOXIA XD7P 7.68TB E1.S SSD
  • 그레이드 슈프림RAID SR-1010
  • 우분투 22.04.4 서버

성능 테스트 결과

HPC 워크로드는 며칠, 몇 주 또는 몇 달 동안 작동할 수 있으며, 복원력 있는 백엔드 스토리지가 없으면 단일 드라이브 장애로 인해 이러한 작업이 원점으로 돌아갈 수 있습니다. HPC 및 Ai 워크로드에 대한 복원력과 성능에 대한 Graid의 영향을 평가하기 위해 y-cruncher의 내부 스토리지 벤치마크 성능을 살펴봅니다. 목표는 다양한 스토리지 구성, JBOD, 소프트웨어 RAID 및 Graid SupremeRAID를 비교하여 CPU 집약적 워크로드에 미치는 영향을 이해하는 것입니다.

RAID 구성

mdadm 소프트웨어 RAID는 패리티 데이터에 대해 상당한 쓰기 히트를 보인다는 것을 알고 있습니다. RAID10은 더 높은 성능을 달성하지만 사용 가능한 용량도 상당히 줄어듭니다. 소프트웨어 RAID5 성능을 최적화하기 위해 SSD 5-0와 15-16에 분할된 두 개의 RAID31 풀을 구성했습니다. 이렇게 하면 두 CPU에 걸쳐 균형을 이룰 수 있습니다.

Graid 비교는 두 개의 RAID5 풀을 사용하도록 조정되었으며, NUMA 밸런싱을 위해 SSD의 절반을 CPU0에, 나머지 절반을 CPU1에 균등하게 분배했습니다. 각 RAID5 풀에 단일 볼륨과 RAID5 풀당 두 개의 볼륨으로 테스트했습니다.

각 드라이브는 JBOD 구성에서 개별적으로 매핑되어 균등한 NUMA 밸런싱이 보장됩니다.

이 보고서에는 하드웨어 RAID를 포함할 수 없습니다. 이 서버에서 드라이브가 케이블로 연결된 방식 때문에 기존 하드웨어 RIAD 카드가 지원되지 않습니다. 그러나 포함시킬 수 있다 하더라도 최상의 시나리오는 단일 카드의 PCIe Gen4 x16 슬롯 대역폭 제한인 약 28GB/s에 도달하는 것입니다.

소프트웨어 구성

이러한 다양한 저장 시나리오의 경우 다음을 사용했습니다. y-크런처내부 성능 테스트 도구입니다. 테스트 결과는 순차적 읽기 및 쓰기 성능, 계산 I/O 속도, 디스크 I/O 속도, 디스크 I/O 속도 대 계산 속도 비율로 구분됩니다. 이 도구를 선택한 이유는 CPU, 메모리, 드라이브 I/O에 동시에 스트레스를 주기 때문입니다. 단일 특정 워크로드를 나타내지는 않지만, I/O가 많은 애플리케이션에서 생성되는 데이터는 전체 시스템 성능과 긴밀하게 연관되어 있음을 발견했습니다. 특히, I/O 테스트에는 가능한 한 빨리 인터페이스를 통해 비트를 푸시하는 것이 아니라 실제 데이터 처리가 포함되어 있어 실제 부하에서 시스템 성능을 보다 정확하게 반영합니다.

순차적 읽기 및 쓰기 성능은 디스크 배열의 원시 속도를 나타냅니다. 계산 속도는 CPU가 데이터를 처리하는 속도이고 디스크 I/O 속도는 계산 작업이 발생할 때 데이터가 CPU로 스트리밍될 수 있는 속도입니다. 디스크로 이동하는 워크로드는 속도가 느려지지 않으려면 디스크 I/O 속도가 계산 속도보다 높아야 합니다. 이 비율이 1.0보다 작으면 디스크에 병목 현상이 발생하고 1.0을 넘으면 CPU에 병목 현상이 발생합니다. 대규모 워크로드의 경우 y-cruncher는 비율이 2.0 이상일 때 가장 잘 수행됩니다.

스토리지 구성 순차 읽기 GB/s 순차 쓰기 GB/s 계산 GB/s 디스크 I/O GB/s 비율
직접 JBOD 102 102 18.4 81.5 4.42
그레이드 RAID5 x 2 2VD 64.3 43.8 23.1 70.4 3.05
그레이드 RAID5 x 2 4VD 85.2 73.7 22.1 69.4 3.14
소프트웨어 RAID5 x 2 122 3.6 25.7 10.9 0.42

32개의 개별 E1.S SSD에 직접 JBOD를 사용하여 y-cruncher는 내부 스트라이핑 프로세스로 102GB/s 읽기 및 102GB/s 쓰기 성능을 확인했습니다. 이는 일반적으로 y-cruncher가 이 플랫폼에서 볼 수 있는 가장 높은 성능이지만, 데이터 패리티가 없다는 단점이 있습니다. 구성을 mdadm으로 소프트웨어 RAID5 볼륨(두 CPU에 분산)으로 전환했을 때 순차적 성능은 3.6GB/s 쓰기 및 122GB/s 읽기로 급격히 떨어졌습니다. 두 개의 RAID5 풀과 두 개의 볼륨이 있는 Graid는 64.3Gb/s 읽기, 43.8GB/s 쓰기 성능을 측정했습니다. 이를 두 개의 RAID5 풀로 분할하고 볼륨을 네 개로 설정한 Graid는 대역폭이 증가하여 85.2GB/s 읽기 및 73.7GB/s 쓰기를 달성했습니다.

대역폭 수치가 해결되고 스토리지 구성 옵션의 스펙트럼이 이해되면 이 결정이 애플리케이션에 미치는 영향을 파헤쳐 보겠습니다. 디스크 I/O 대역폭에 대한 계산 비율은 JBOD 구성에서 4.43의 가장 높은 비율을 보였습니다. 소프트웨어 RAID5는 0.42에 불과했고 Graid RAID5는 3.05VD에서 2, 3.14VD에서 4였습니다.

서버의 모든 성능 기능을 포함하는 이 y-cruncher 예에서 최적의 성능을 위해서는 2.0 이상의 비율이 필요합니다. JBOD 구성은 전반적으로 가장 좋은 결과를 가져오지만, 패리티 데이터를 희생해야 하므로 드라이브에 잠깐이라도 오류가 발생하면 데이터가 손실됩니다. 반면, 소프트웨어 RAID는 JBOD보다 데이터 가용성과 더 높은 읽기 속도를 제공할 수 있지만 쓰기가 너무 심하게 손상되어 디스크 I/O가 CPU와 보조를 맞출 수 없어 끔찍한 .42 결과가 나옵니다.

이 두 데이터 포인트는 Graid SupremeRAID가 이러한 워크로드에 제공하는 이점을 이해하는 데 중요합니다. 이 사용 사례의 경우, 집계 성능 수치는 JBOD와 소프트웨어 RAID 사이에 있지만, 원시 I/O가 전부는 아닙니다. 이 예는 Graid가 데이터 가용성을 제공하는 동시에 필요한 애플리케이션 성능 이상을 제공할 수 있음을 보여줍니다. 이 조합은 Graid를 사용하는 조직이 기존 RAID 카드가 제공할 수 있는 것을 훨씬 능가하는 비차단 아키텍처로 RAID 보호, 스토리지 및 애플리케이션 성능을 기대할 수 있음을 의미합니다.

결론

Graid Technology의 SupremeRAID는 지속적으로 데이터 보호와 성능의 경계를 넓혀 업계의 새로운 표준을 제시합니다. Graid는 GPU 가속의 힘을 활용하여 RAID 구성에서 타의 추종을 불허하는 속도와 효율성을 제공하여 CPU 부담을 크게 줄이는 동시에 처리량을 극대화합니다.

이 보고서를 위해 수집한 데이터는 Graid가 현대 AI 및 HPC 워크로드의 까다로운 요구 사항을 충족하는 동시에 강력한 데이터 보호를 보장할 수 있는 역량을 보여줍니다. 이는 기존 RAID 및 소프트웨어 RAID 솔루션이 종종 부족한 영역입니다. 이러한 효율성 덕분에 CPU, DRAM 및 스토리지와 같은 중요한 시스템 리소스가 지원하도록 설계된 애플리케이션의 성능에 완전히 기여하여 전반적인 시스템 가치와 효과를 향상시킵니다.

격자 기술

이 보고서는 Graid Technology에서 후원합니다. 이 보고서에 표현된 모든 견해와 의견은 고려 중인 제품에 대한 우리의 편견 없는 견해에 기초합니다.

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드