홈페이지 EnterpriseAI KIOXIA E1.S SSD로 AI 워크플로우의 효율성 향상

KIOXIA E1.S SSD로 AI 워크플로우의 효율성 향상

by 조던 라누스

AI를 위한 고밀도 GPU 서버에 대해 상당한 과대광고가 있지만, 현실은 대부분의 AI 교육 프로젝트가 워크스테이션에서 시작된다는 것입니다. 이제 최대 6000개의 NVIDIA A24 Ada GPU를 단일 워크스테이션에 넣을 수 있지만 더 어려운 것은 이러한 AI 상자에 강력한 스토리지를 확보하는 것입니다. 우리는 이 문제에 대해 생각하고 몇 대의 AI 워크스테이션에 고속 스토리지를 가장 잘 공급할 계획을 세웠습니다. 우리는 Supermicro 및 KIOXIA와 협력하여 7.68개의 7TB XD1P SSD로 서버를 가득 채우고 추론 기능을 갖춘 놀라운 성능의 XNUMXU 스토리지 서버를 만들었습니다.

AI를 위한 고밀도 GPU 서버에 대해 상당한 과장된 광고가 있지만, 현실은 대부분의 AI 교육 프로젝트가 워크스테이션에서 시작된다는 것입니다. 이제 최대 6000개의 NVIDIA A24 Ada GPU를 단일 워크스테이션에 넣을 수 있지만 더 어려운 것은 이러한 AI 상자에 강력한 스토리지를 확보하는 것입니다. 우리는 이 문제에 대해 생각하고 몇 대의 AI 워크스테이션에 고속 스토리지를 가장 잘 공급할 계획을 세웠습니다. 우리는 Supermicro 및 KIOXIA와 협력하여 7.68개의 7TB XD1P 시리즈 데이터 센터 NVMe SSD로 서버를 채우고 추론 기능을 갖춘 놀라운 성능의 XNUMXU 스토리지 서버를 만들었습니다.

우리는 여러분이 무슨 생각을 하고 있는지 알고 있습니다. E1.S SSD로 채워진 서버 플랫폼, AI 모델을 훈련하는 워크스테이션, 동일한 스토리지 서버에서 추론 사이의 점을 어떻게 연결하려고 합니까? 설명하는 데 약간의 위도를 허용하십시오.

AI 워크스테이션은 책상 밑에 있을 필요가 없습니다.

몇 가지 예외를 제외하면 고가의 GPU를 탑재한 고성능 AI 워크스테이션은 가장자리에 배포되거나 사무실 건물 내에서도 배포되어서는 안 됩니다. 문제는 많습니다. 주로 이러한 엔드포인트는 보안 위협 및 데이터 유출 위험이 높으며, 중요한 것은 활용도가 낮다는 것입니다. 대부분의 AI 전문가는 부적절한 LAN 구성으로 인해 모델 교육에 필요한 방대한 양의 데이터에 액세스할 수 없습니다.

반면에 이러한 강력한 워크스테이션을 데이터 센터에 배치하면 이제 몇 가지 이점을 얻을 수 있습니다. 첫째, 물리적 보안이 해결되고 씬 클라이언트나 유선을 통해 데이터가 아닌 픽셀만 푸시하는 액세스를 통해 원격 액세스 문제를 완화할 수 있습니다. 이 시나리오에서는 데이터가 워크스테이션이 아닌 서버에 상주합니다. 둘째, 데이터 센터의 이러한 시스템은 백업이 더 빠르거나 더 빠릅니다. 셋째, 스마트 프로비저닝을 통해 이러한 시스템을 분산된 AI 인력과 공유함으로써 회사 전체의 활용도를 높일 수 있습니다. 마지막으로, 데이터 센터에 있으면 가장 귀중한 AI 자산인 데이터에 액세스할 수 있습니다.

우리는 이 작업을 위해 연구실에 세 대의 Lenovo 워크스테이션을 준비했습니다. 각각은 AMD와 NVIDIA GPU를 모두 활용하여 약간 다르게 구성되어 일부 모델이 다른 가속기에서 더 나은 성능을 발휘할 수 있으므로 유연성을 제공합니다. 각 시스템에는 NVIDIA ConnectX-6 100GbE 카드가 설치되어 있으며 이는 이러한 시스템이 스토리지에 빠르게 액세스할 수 있도록 하는 데 필수적입니다. 그런 다음 각 시스템은 스토리지 서비스도 연결된 Dell Z9100 100GbE 스위치에 연결됩니다.

부분 워크 스테이션 1 워크 스테이션 2 워크 스테이션 3
모델 레노버 P620 레노버 P620 레노버 P5
CPU AMD 라이젠 스레드리퍼 PRO 5995WX AMD 라이젠 스레드리퍼 PRO 3995WX 인텔 제온 w7-2495X
메모리 128GB DDR4 3200 32GB DDR4 3200 32GB DDR5 4800Mhz
GPU AMD 라데온 프로 W7900 엔비디아 RTX A6000 엔비디아 RTX A4500

KIOXIA XD7P 시리즈 SSD를 사용한 빠른 AI 스토리지

AI 워크스테이션 테스트베드가 정렬되었으니 스토리지 서버를 살펴보겠습니다. 이 경우 우리는 슈퍼마이크로 스토리지 슈퍼서버 SSG-121E-NES24R. 이 1U 서버에는 기본 주파수가 8450GHz인 28개 코어와 56개 스레드를 갖춘 듀얼 Intel Xeon Platinum 2.00H 프로세서가 있습니다. 8450H 프로세서는 3.50MB의 캐시와 75W의 TDP를 특징으로 하는 동시에 250GHz의 최대 터보 주파수에 도달할 수 있습니다. 512GB의 DDR5 RAM은 비교적 적당한 RAM 공간입니다. 서버는 연결을 위해 워크스테이션과 동일한 NVIDIA ConnectX-6 100GbE NIC를 사용합니다. 추론을 위해 NVIDIA A2 GPU도 설치했습니다.

스토리지 측면에서 KIOXIA는 24개의 XD7P 시리즈 데이터 센터 NVMe SSD를 보냈습니다. KIOXIA XD7P 시리즈 E1.S SSD는 특히 OCP(Open Compute Project) 데이터 센터 NVMe SSD 사양에 설명된 성능, 전력 효율성 및 열 요구 사항과 관련하여 현대 데이터 센터에서 발견되는 대규모 애플리케이션의 요구 사항을 해결하도록 특별히 설계되었습니다.

이 SSD는 9.5mm 및 15mm 두께의 E1.S 변형으로 제공되며 후자는 열 방출을 향상시키는 방열판을 갖추고 있습니다. 컨트롤러, 펌웨어 및 7개로 구성된 KIOXIA의 XD5P 독점 아키텍처th-gen BiCS FLASH™는 전반적인 효율성, 신뢰성 및 성능에 기여합니다. 새로운 시리즈는 다양한 스토리지 요구 사항을 충족하기 위해 1.92TB~7.68TB 범위의 용량으로 제공됩니다.

일부 주요 기능에는 예상치 못한 전력 손실과 관련된 시나리오에서 데이터 무결성을 유지하는 데 중요한 PLP(전력 손실 보호) 및 엔드투엔드 데이터 보호가 포함됩니다. 또한 SED(자체 암호화 드라이브) 기술을 사용하면 데이터 보안이 한층 더 강화됩니다.

성능과 관련하여 KIOXIA XD7P 시리즈 SSD는 다양한 용량에 걸쳐 인상적인 잠재력을 제공합니다. 최대 7,200MB/s의 지속 순차 읽기 속도와 대용량을 위한 최대 4,800MB/s의 순차 쓰기 속도를 갖춘 이 SSD는 데이터 집약적인 작업을 효율적으로 처리하도록 설계되었습니다. 또한 각각 최대 1,650K IOPS 및 200K IOPS의 지속적인 무작위 읽기 및 쓰기 속도 덕분에 높은 I/O 작업이 필요한 워크로드에 적합합니다.

XD7P는 E1.S 폼 팩터를 활용하여 성능과 밀도 사이의 고유한 균형을 유지합니다. 이를 통해 새로운 드라이브는 클라우드 및 대규모 데이터 센터의 플래시 스토리지를 위한 미래 지향적인 솔루션으로 자리매김하여 이러한 까다로운 환경의 변화하는 요구 사항을 해결합니다. XD7P의 표준화된 크기와 내장 방열판은 24U SuperServer SSG-1E-NES121R에 24개의 전면 장착 드라이브를 수용할 수 있는 효율적인 수단을 제공하여 서버 밀도를 크게 높입니다. 또한 E1.S의 핫 스왑 가능성은 열 문제 없이 고성능 워크로드를 처리할 수 있는 능력과 결합되어 데이터 센터와 같은 스토리지 솔루션의 효율성과 성능을 향상시켜 데이터 센터의 M.2 커넥터를 실질적으로 대체할 수 있는 위치에 있습니다. .

XD7P는 PCIe Gen4 x4 레인을 지원합니다. 드라이브는 Gen4 또는 Gen5 백플레인과 잘 작동합니다.

KIOXIA XD7P 시리즈 빠른 사양

생산 능력 7,680 GB 3,840 GB 1,920 GB 7,680 GB 3,840 GB 1,920 GB
기본 사양
폼 팩터 E1.S 15mm E1.S 9.5mm
인터페이스 PCIe 5.0, NVMe 2.0
플래시 메모리 유형 BiCS 플래시 TLC
성능(최대)
지속 128KiB 순차 읽기 7,200MB / s의
지속 128KiB 순차 쓰기 4,800MB / s의 3,100MB / s의 4,800MB / s의 3,100MB / s의
지속 4KiB 임의 읽기 1,550K IOPS 1,650K IOPS 1,500K IOPS 1,550K IOPS 1,650K IOPS 1,500K IOPS
지속 4KiB 임의 쓰기 200K IOPS 180K IOPS 95K IOPS 200K IOPS 180K IOPS 95K IOPS
전원 요구 사항
공급 전압 12V ± 10 %
소비 전력(활성) 20W 일반 20W 일반 16W 일반 20W 일반 20W 일반 16W 일반
전력 소비(준비) 5W 일반
신뢰성
MTTF 2,000,000 시간
DWPD 1

KIOXIA XD7P 시리즈 SSD를 사용한 스토리지 서버 성능

이 콤보가 얼마나 잘 수행될 수 있는지 더 잘 이해하기 위해 우리는 내부 성능 테스트를 통해 스토리지 서버를 테스트하는 것부터 시작했습니다. 스토리지 서버의 성능을 살펴볼 때 우리는 Ubuntu Linux의 JBOD 구성에서 전체 원시 성능에 초점을 맞춰 스토리지의 기능을 특성화했습니다.

4K 무작위 워크로드의 최대 처리량을 살펴본 다음 64k 순차 워크로드의 최대 대역폭을 살펴보았습니다. 이 테스트는 Ubuntu 22.04 환경에서 VDbench를 활용하여 실행되었습니다.

작업량 읽기 쓰다
64K 순차, 64스레드 로드 158GB / s 64.1GB / s
4K 랜덤, 512스레드 로드 4.09만 IOPS, 16GB/초 4.5만 IOPS, 17.7GB/초

실험 설정에서 우리는 고속 KIOXIA 드라이브를 활용하기 위해 SMB3 프로토콜과 함께 Windows 저장소 공간을 사용하기로 결정했습니다. 저장소 공간을 활용하여 탄력적인 미러링 저장소 풀을 생성함으로써 데이터 무결성을 보장하고 I/O 성능을 최적화할 수 있었습니다.

다중 채널 기능 및 영구 핸들과 같은 SMB3의 향상된 기능을 사용하면 더 느린 CPU 바인딩 메모리와 관련된 기존 병목 현상을 우회하여 높은 처리량으로 대용량 데이터 청크를 여러 GPU 워크스테이션에 직접 스트리밍할 수 있습니다. 이 설정은 여러 워크스테이션이 동시에 KIOXIA 기반 공유 스토리지에 데이터에 액세스하고 데이터를 로드할 수 있도록 하면서 신속한 데이터 검색을 가능하게 한다는 두 가지 이점을 가졌습니다.

이전 테스트에서는 파일 시스템 없이 KIOXIA XD7P 시리즈 SSD의 기본 성능을 측정했지만 Windows Server 2022 환경 내 성능을 다시 살펴보았습니다. 이 설정에서는 대규모 스토리지 풀에 미러링된 가상 디스크가 있는 상태에서 NTFS 파일 시스템을 사용했습니다.

미러링된 볼륨 내에서 강력한 성능을 확인하기 위해 서버에서 로컬로 CrystalDiskMark를 활용했습니다. 이 테스트는 1MB 전송 크기와 무작위 4K 전송 속도로 순차 읽기 및 쓰기 성능을 측정하도록 설정되었습니다. 여기서는 64GB 파일 공간에서 87.4GB/s 읽기와 18.4GB/s 이상의 쓰기를 측정했습니다.

이 백서에서 우리는 전체 AI 솔루션의 전반적인 기능을 살펴보고 있으므로 이러한 종류의 성능 프로필이 인상적이기는 하지만 KIOXIA는 분명히 우리가 필요로 하는 것보다 더 많은 것을 제공하고 있습니다. 이는 AI 워크스테이션의 수를 쉽게 확장하거나 스토리지 서버에 추가 작업을 할당할 수 있다는 것을 의미하므로 데이터를 스크러빙하고 정리하거나 완전히 다른 작업을 수행할 수 있다는 의미입니다.

AI 워크스테이션에 풍부한 고속 스토리지 공급

연구실 랙에 있는 GPU 워크스테이션을 KIOXIA 기반 올플래시 100U 파일 서버에 1GbE로 네트워크로 연결하고 공유 설정을 통해 이를 실제로 테스트했습니다. 테스트 설정에서 우리는 각 워크스테이션에서 Dell Z100 9100GbE 스위치로의 기본 단일 100GbE 링크를 선택했으며, 그런 다음 다른 100GbE 링크를 통해 스토리지 서버에 다시 연결했습니다.

여기서 우리는 KIOXIA 스토리지 서버의 Windows 파일 공유에서 인상적인 11.4GB/s 읽기 및 11GB/s 쓰기를 측정할 수 있었습니다.

AI 워크스테이션에 대한 이러한 수준의 성능과 밀도는 엄청난 가치를 제공할 것입니다. AI 워크스테이션을 로컬 스토리지로 채우려고 하는 대신 용량이 거의 무제한인 100GbE 이상의 훨씬 더 성능이 뛰어난 스토리지를 공유할 수 있습니다.

GenAI 실제 – LLM 교육 데이터 세트

LLM(대형 언어 모델)은 요즘 IT 블록에서 가장 인기 있는 분야입니다. 이를 훈련하고 미세 조정하는 것은 엄청난 양의 데이터 세트와 이를 처리하는 데 훨씬 더 큰 GPU 성능이 필요한 대규모 작업입니다. 일부 GPU 워크스테이션을 로드하고 실제 스타일 테스트를 수행하기 위해 2012년부터 2021년까지 Reddit에 제출된 모든 텍스트와 댓글을 일부 조정하여 덤프했습니다. Stanford Alpaca 훈련 데이터 세트, 로 LLaMa 모델 여러 번의 미세 조정 시도를 위해. 목표는 대규모 실제 데이터세트를 적용할 때 LLaMa 모델의 효율성, 정확성 및 실행 가능성을 평가하는 것이었습니다.

Windows Server 2022 플랫폼에서는 24개의 KIOXIA XD7P 시리즈 SSD가 168TB 풀로 그룹화된 다음 83.7TB 미러 볼륨으로 그룹화되었습니다. 그런 다음 이 볼륨은 활용할 세 워크스테이션 각각에 대한 파일 공유를 통해 100GbE 네트워크를 통해 공유되었습니다. 사용된 Supermicro Superserver 스토리지 서버는 성능에 영향을 주지 않고 전체 볼륨 84TB를 채우는 데이터 크기를 처리할 수 있습니다. 현재 사용되는 데이터 크기는 5.6TB이지만 볼륨은 훨씬 더 큰 크기를 처리할 수 있습니다.

다양한 환경을 제공하기 위해 각 GPU 워크스테이션을 조금씩 다르게 구성했습니다. 우리는 각 시스템을 공유 데이터 세트에서 서로 다른 모델로 작업하는 개별 개발자인 것처럼 취급했으며 어떠한 교육도 배포하지 않았습니다. 이러한 맥락에서 Windows를 선택한 것은 초기 연구 또는 개발 시나리오를 에뮬레이션하기 위한 것이었습니다.

우리가 다루고 있는 데이터의 규모에 대한 맥락을 위해 이 테스트의 데이터 세트는 LLM 교육 데이터용 16,372개 파일로 구성되어 3.7TB의 디스크 공간을 소비하고 이미지 교육 데이터용 8,501개 파일은 1.9TB를 차지합니다. 전체적으로 24,873TB에 달하는 5.6개의 파일을 작업했습니다. 우리는 의도적으로 데이터 세트의 크기를 제한했으며 이러한 실험을 위해 스토리지의 전체 용량을 활용하지 않았다는 점을 기억하는 것이 중요합니다. 그렇지 않았다면 이 프로젝트의 교육이나 미세 조정 프로세스에 시간이 너무 많이 걸렸을 것입니다. 이 구성을 사용하면 모든 워크스테이션이 데이터세트를 공유하고 협업을 위해 체크포인트와 샤드를 서버에 저장할 수 있었습니다.

파일 디스크 크기
LLM 교육 데이터 16,372 3.7TB
이미지 훈련 데이터 8,501 1.9TB
금액 24,873 5.6TB

두 실험 모두의 소프트웨어 스택은 간단한 구성이었으며 우리는 아나콘다 및 WSL(Linux용 Windows 하위 시스템)이 있습니다. Anaconda는 Python 기반 기계 학습 라이브러리 및 종속성을 관리하기 위한 강력한 환경을 제공하여 GPU 워크스테이션 전반에 걸쳐 모듈식이며 쉽게 복제 가능한 설정을 허용합니다. WSL은 Windows 워크스테이션에서 Linux 관련 데이터 조작 및 조정 도구를 원활하게 실행할 수 있는 유연성을 제공하여 Windows와 Linux 기반 유틸리티 간의 격차를 해소하는 데 도움이 됩니다. 통합 워크플로 내에서 데이터 전처리를 위한 셸 스크립트를 실행하고 Python 기반 교육 작업을 시작할 수 있었습니다. 우리가 이 경로를 선택한 이유 중 하나는 구성의 용이성뿐만 아니라 혼합 GPU 환경에서 공평한 경쟁의 장을 마련하기 위해서이기도 했습니다.

훈련 과정에서 몇 가지 주요 관찰이 이루어졌습니다.

  1. 데이터 다양성: 거의 XNUMX년에 걸쳐 Reddit에 제출된 제출물과 댓글이 합쳐져 주제, 어휘, 대화 맥락이 다양하게 혼합된 모델이 제시되었습니다. 이러한 풍부한 다양성은 모델이 시간이 지남에 따라 다양한 뉘앙스, 정서 및 문화적 변화를 이해하고 적응할 수 있는 포괄적인 플랫폼을 제공했습니다.
  2. 모델 확장성: 이러한 엄청난 양의 데이터를 처리하는 것은 LLaMa 모델의 확장성에 대한 리트머스 테스트였습니다. 우리는 훈련 기간이 늘어남에 따라 관련 응답을 예측하고 생성하는 모델의 능력이 상당히 향상되어 대규모 애플리케이션에 대한 잠재력이 강조된다는 것을 발견했습니다. 과적합은 약 XNUMX개 이후에 문제가 되었지만 이 테스트에서는 반드시 문제가 되지 않았습니다. 목표는 일반 LLM 모델을 생성하는 것보다 GPU 및 네트워크 공유를 더 많이 로드하는 것이었기 때문입니다.
  3. 리소스 최적화: 엄청난 양의 GPU 마력이 필요하므로 컴퓨팅 리소스를 효율적으로 활용하는 것이 중요했습니다. 최적의 성능을 보장하기 위해 동적 로드 밸런싱, 주기적인 체크포인트 및 즉각적인 데이터 증대 기술이 사용되었습니다.
  4. 전이 학습 잠재력: Reddit 데이터와 함께 Stanford Alpaca 교육 데이터 세트를 사용하는 것은 모델의 전이 학습 기능을 측정하는 데 중요한 역할을 했습니다. Alpaca 데이터세트의 고유한 구조와 학문적 성격은 Reddit 데이터의 비공식적이고 다양한 성격과 병치되어 흥미로운 도전 과제를 제시했습니다. 결과는 LLaMa가 서로 다른 소스의 지식을 원활하게 통합하여 다재다능하고 적응 가능하게 만들 수 있음을 나타냅니다.
  5. 윤리적 고려 사항: 방대한 Reddit 데이터 세트는 귀중한 정보를 제공하지만 개인 식별 정보를 제외하고 해당 데이터를 윤리적이고 책임감 있게 사용하는 것이 중요합니다. 사용자 개인정보 보호를 위해 모델을 게시하려면 엄격한 데이터 정리 및 익명화 프로세스를 마련해야 합니다.

이번 훈련은 훈련 효율성을 향상시키는 데 있어 KIOXIA의 고밀도 드라이브가 수행하는 중요한 역할을 강조했습니다. 데이터 세트의 엄청난 크기와 모델 훈련의 반복적 특성을 고려할 때 저장 속도 및 용량은 이러한 실험에서 병목 현상이 발생하는 경우가 많습니다. KIOXIA의 드라이브를 통해 우리는 데이터 세트의 여러 인스턴스, 중간 모델 가중치 및 수십 개의 미세 조정된 체크포인트를 저장할 수 있는 여유를 얻었습니다. 빠른 읽기 및 쓰기 속도 덕분에 빠른 데이터 검색이 가능해졌으며, 아래 그림과 같이 다양한 하이퍼파라미터를 사용하여 여러 번의 미세 조정 반복을 병렬로 처리할 수 있었습니다.

이는 최적의 작업 체크포인트를 식별하는 데 매우 중요했습니다. 새로 구축된 KIOXIA 기반 스토리지 서버 덕분에 우리는 스토리지 제한에 얽매이지 않고 모델을 개선하고, 매개변수를 조정하고, 결과를 평가하는 데 집중할 수 있었습니다. 따라서 고밀도 드라이브는 단순한 스토리지 솔루션이 아니라 실험 단계를 크게 가속화하는 중추적인 자산이었습니다. 이를 통해 LLaMa 모델의 잠재력을 보다 철저하고 효율적으로 탐색할 수 있었고 자체적으로 새로운 CNN(컨볼루션 신경망)을 개발할 수 있었습니다.

초심자를 위해CNN(Convolutional Neural Network)은 이미지 처리 및 컴퓨터 비전 작업에 주로 사용되는 특수한 유형의 딥 러닝 아키텍처입니다. 그 독특한 특징은 입력 이미지에서 특징의 공간 계층을 자동으로 적응적으로 학습하는 컨벌루션 레이어에 있습니다. 완전히 연결된 레이어에 의존하는 기존 신경망과 달리 CNN은 입력 데이터를 작은 청크 또는 수용 필드로 처리하는 컨벌루션 필터를 적용하여 데이터의 공간 구조를 활용합니다. 그 결과 가장자리, 질감, 더 복잡한 구조와 같은 복잡한 패턴을 단순한 패턴부터 구축하여 감지할 수 있는 네트워크가 탄생합니다. 데이터가 네트워크로 더 깊이 들어가면서 이러한 패턴은 더욱 추상화되어 CNN이 다양하고 종종 복잡한 시각적 개체를 계층적으로 인식하고 분류할 수 있습니다.

여러 번의 미세 조정 시도를 통해 이 모델은 대규모 데이터 세트를 효율적으로 처리할 수 있는 능력을 보여주고 관련성 있고 상황을 인식하며 미묘한 결과를 생성할 수 있는 잠재력을 강조했습니다. LLM이 지속적으로 관심을 끌면서 이러한 실험은 실제 적용 및 한계에 대한 귀중한 통찰력을 제공하여 미래에 더욱 정교하고 사용자 중심적인 AI 솔루션을 위한 길을 열어줍니다.

서버 추론 기능

동일한 데이터세트에 대해 추론 작업을 실행하면 간소화된 구조가 제공되어 데이터 관리의 복잡성이 단순화됩니다. 우리 서버는 단순한 저장 도구가 아닙니다. 데이터 수집 및 준비를 포함한 추론 관련 활동을 처리할 수 있는 기능을 갖추고 있습니다.

더 큰 데이터 세트에 대한 추론을 테스트하기 위해 우리는 약 1Mb에서 20Mb에 이르는 천체 사진 이미지 세트를 선택하고 이에 대해 작업 중인 새로운 CNN을 실행했습니다. 우리 시나리오에서는 모델이 GPU에 로드된 다음 신경망을 통해 처리하기 위해 이미지 또는 일련의 이미지가 로드됩니다.

이는 표준화된 카메라의 컴퓨터 비전 개체 분류에서 볼 수 있는 것보다 더 광범위한 스토리지 공간 프로필입니다. 그럼에도 불구하고 이는 플랫폼 성능의 유연성과 일관성을 보여주었습니다. 로드된 순서가 아닌 크기별로 정렬된 아래 그래프(몇 가지 이상값 제외)에서는 읽기 시간과 다시 쓰기 시간이 적절하게 조정되었습니다.

이 도표는 드라이브와 서버의 선형 성능을 설명하기 위해 가장 작은 것부터 가장 큰 것 순으로 정렬되어 있다는 점을 기억하는 것이 중요합니다. 실제 실행 및 데이터 세트는 무작위로 지정되었으므로 1Mb 파일을 읽고 쓴 다음 즉시 20Mb 파일을 사용할 수 있습니다. 실제 처리의 종류는 특별한 순서가 없었습니다. 읽기 시간 범위는 10ms~25ms였으며 이상값은 70ms+ 범위에 도달했습니다.

아래 차트는 편차가 적은 유사한 선형 진행 쓰기를 보여주며 12ms에서 118ms 범위의 동일한 파일 쓰기를 보여줍니다.


기억해야 할 또 다른 필수 정보는 이 플롯이 동일한 데이터세트에 대한 추론을 동시에 실행하는 10.5개의 GPU 워크스테이션을 추적하여 집계한 것이라는 점입니다. KIOXIA 드라이브는 모델이 사용하는 직렬 처리를 제외하고 1000개 이미지의 무작위 데이터 세트에 대해 추론을 실행하는 59.62개의 GPU 워크스테이션에 인상적인 59GB를 제공하고 다시 쓸 수 있었습니다. 단일 이미지를 읽고 다시 쓰는 데 전체 프로세스가 XNUMX초, 즉 XNUMXms밖에 걸리지 않았습니다.

이 설계는 여러 워크스테이션이나 GPU 서버로 확장되므로 여러 옵션을 통해 속도와 대기 시간을 개선할 수 있습니다. RDMA(Remote Direct Memory Access) 프로토콜과 결합된 NVIDIA의 GPUDirect 스토리지를 구현하면 고밀도 공유 스토리지에서 GPU 메모리로 바로 데이터를 원활하게 이동할 수 있습니다. 이 접근 방식은 CPU 및 시스템 메모리 병목 현상을 효과적으로 우회합니다. 패브릭 및 NVIDIA 네트워킹 장비를 통한 NVMe를 활용하면 대용량 데이터를 거의 실시간으로 GPU 메모리에 사전 로드할 수 있습니다. 이는 대규모 데이터 세트와 계산 요구 사항을 고려할 때 LLM을 다룰 때 특히 유용합니다. 이러한 기능을 사용하면 데이터 캐싱이 필요하지 않으며 여러 워크스테이션이 공유 스토리지 풀에서 동시에 데이터를 읽고 수집할 수 있습니다.

최종 생각

대규모 모델의 I/O 병목 현상을 해결하는 것은 특히 광범위한 데이터 세트를 처리할 때 기계 학습의 지속적인 발전을 위해 매우 중요합니다. 중앙 집중식 고속 네트워크 공유는 기존 로컬 스토리지에 비해 XNUMX배의 이점을 제공합니다.

  • 첫째, 교육을 위해 대규모 데이터 세트를 개별 워크스테이션으로 마이그레이션할 필요가 없어 운영이 간소화됩니다. 이는 기계 학습 프로젝트, 특히 딥 러닝 모델과 관련된 프로젝트를 손상시킬 수 있는 I/O 병목 현상을 직접적으로 해결합니다.
  • 둘째, 중앙 집중식 접근 방식을 선택하면 워크스테이션의 귀중한 PCIe 레인이 과도하거나 심지어 도달할 수 없는 양의 로컬 스토리지로 인해 압도되는 것을 방지할 수 있습니다. 고속 연결 덕분에 더 많은 GPU가 데이터를 병렬로 더 효율적으로 처리할 수 있어 기계 학습 작업이 더 간결해지고 민첩해집니다.
  • 셋째, 중앙 집중식 스토리지는 본질적으로 더 나은 보안 조치를 제공합니다. 데이터가 안전한 단일 위치에 저장되면 액세스 제어를 관리하고 보안 프로토콜을 구현하기가 더 쉬워지므로 데이터 침해, 물리적 위협 또는 무단 액세스의 위험이 줄어듭니다.

또한 데이터를 중앙 집중화하면 데이터 일관성이 향상되고 데이터 중복성이 추가로 보장됩니다. 워크스테이션은 단일 소스에서 가장 최신 데이터에 액세스하여 오래되거나 일관되지 않은 학습이나 데이터 또는 모델 체크포인트의 미세 조정으로 인한 결과의 불일치를 최소화합니다. 이는 또한 데이터 관리를 단순화하고 저장 공간을 절약합니다.

초음속으로 진화하는 AI 및 기계 학습 환경에서 확장성, 효율성 및 보안이 점점 더 중요해짐에 따라 KIOXIA E1.S 플랫폼과 같은 기술이 제공하는 중앙 집중식, 고밀도, 고속 스토리지로의 전환은 매력적인 사례를 제시합니다. 이는 성능 향상뿐만 아니라 데이터 관리 및 모델 교육에 접근하는 방식의 근본적인 변화를 위해서도 중요합니다.

KIOXIA XD7P 시리즈 E1.S NVMe 데이터 센터 사양서

이 보고서는 KIOXIA America, Inc.의 후원을 받습니다. 이 보고서에 표현된 모든 견해와 의견은 고려 중인 제품에 대한 당사의 편견 없는 관점을 기반으로 합니다.

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드