체크포인팅은 AI 모델 학습에 매우 중요하며, 복원성, 효율성을 보장하고 저장된 상태에서 학습을 재개하거나 세부 조정할 수 있는 기능을 제공합니다.
체크포인팅은 AI 모델 훈련에 매우 중요하며, 회복성, 효율성, 저장된 상태에서 훈련을 재개하거나 미세 조정할 수 있는 기능을 보장합니다. 그러나 점점 더 복잡한 모델과 광범위한 훈련 데이터 세트가 있는 최신 AI 워크로드의 요구 사항은 스토리지를 한계에 도달하게 합니다.
AI 워크플로에서 체크포인트의 역할
AI 학습에서 체크포인팅은 학습 중에 모델의 전체 상태를 주기적으로 저장하는 중요한 프로세스입니다. 이 상태에는 모델 가중치와 매개변수, 옵티마이저 상태, 학습률 일정, 학습 메타데이터가 포함됩니다. 체크포인팅은 특정 간격으로 학습 프로세스의 포괄적인 스냅샷을 생성하여 중단 시 학습 연속성과 복구를 제공합니다.
체크포인트는 일반적으로 반복 기반 간격(예: 4개의 트레이닝 단계마다)으로 수행됩니다. 몇 주 또는 몇 달에 걸쳐 진행될 수 있고 엄청난 컴퓨팅 리소스를 소모하는 최신 LLM 트레이닝은 잠재적 실패에 대한 안전망으로 이러한 체크포인트에 크게 의존합니다. 예를 들어, GPT-XNUMX 클래스와 같은 모델을 트레이닝하면 모델 크기와 트레이닝 구성에 따라 수백 기가바이트에서 수 테라바이트에 이르는 체크포인트가 생성될 수 있습니다.

DALL-E에서 생성된 교육 프로세스
체크포인팅의 주요 목적은 단순한 백업 기능을 넘어섭니다. 이는 훈련 회복성을 위한 중요한 메커니즘으로 작용하여 시스템 장애, 정전 또는 하드웨어 문제가 발생할 경우 처음부터 시작하는 대신 마지막으로 저장된 상태에서 훈련을 재개할 수 있습니다. 또한 체크포인트는 모델 분석에 매우 중요하여 연구자들이 다양한 훈련 단계에서 모델의 진화를 조사하고 성능 저하가 감지되면 이전 상태로 롤백할 수 있습니다.
체크포인팅 중 쓰기 패턴은 저장소 관점에서 특히 흥미롭습니다. 체크포인트가 트리거되면 시스템은 버스트 패턴으로 방대한 양의 데이터를 써야 합니다. 이는 훈련 계산 중 비교적 낮은 저장소 활동 기간과 체크포인팅 중 강렬한 고대역폭 쓰기 작업으로 특징지어지는 독특한 I/O 프로필을 생성합니다. 이러한 쓰기 작업은 일반적으로 순차적이며 고대역폭 순차 쓰기에 최적화된 저장소 시스템에서 상당한 이점을 얻을 수 있습니다.
분산 학습에서 다양한 병렬화 전략은 체크포인팅 동작에 상당한 영향을 미칠 수 있습니다. 이러한 병렬화 전략은 학습 중에 체크포인팅이 발생하는 시점과 모델의 어느 부분이 체크포인팅되는지에 영향을 미칩니다. 최신 분산 학습 설정에서 여러 GPU는 동일한 계층의 다른 부분을 동시에 쓸 수 있어 복잡한 I/O 패턴을 생성합니다. 이러한 병렬 쓰기 기능은 효율성을 위해 중요하지만 데이터 일관성을 유지하면서 동시 쓰기 작업을 처리할 수 있는 신중한 조정과 강력한 스토리지 시스템이 필요합니다. 스토리지 시스템은 이러한 동시 쓰기를 효과적으로 관리할 수 있어야 합니다. 이 프로세스의 병목 현상은 전반적인 학습 지연으로 이어질 수 있기 때문입니다.
느린 체크포인팅은 체크포인트가 저장소에 기록되는 동안 전체 트레이닝 프로세스를 일시 중지해야 하므로 상당한 트레이닝 병목 현상을 일으킬 수 있습니다. 예를 들어, 대규모 트레이닝 설정에서 체크포인팅에 몇 시간마다 30분이 걸리면 전체 트레이닝 기간 동안 누적된 다운타임이 몇 시간 발생할 수 있습니다. 이는 트레이닝 효율성에 직접적인 영향을 미치고 운영 비용을 증가시킵니다. 특히 컴퓨팅 리소스가 시간별로 청구되는 클라우드 환경에서 그렇습니다.
더 빠른 체크포인팅으로 팀은 체크포인트를 더 자주 만들 수 있어 실패 시 최대 잠재적 데이터 손실을 줄일 수 있습니다. 이를 통해 보다 공격적인 훈련 접근 방식과 더 나은 실험 반복 주기가 가능해집니다. 게다가 빠른 체크포인트 로딩 시간으로 인해 연구자들이 이전 상태에서 더 쉽게 복원하여 대체 접근 방식을 시도할 수 있으므로 다양한 훈련 구성과 모델 아키텍처로 더 빠르게 실험할 수 있습니다.
이러한 체크포인트 작업을 효율적으로 처리하는 스토리지 시스템의 능력은 전반적인 교육 인프라에서 핵심 요소가 됩니다. 체크포인팅의 버스트 쓰기 패턴과 교육의 지속적인 읽기/쓰기 작업을 모두 관리할 수 있는 고성능 스토리지 솔루션은 대규모 언어 모델을 교육하는 총 시간과 비용에 상당한 영향을 미칠 수 있습니다. 따라서 스토리지 하위 시스템의 성능 특성, 특히 대규모 순차 쓰기를 처리하고 일관된 높은 대역폭을 유지하는 것은 LLM 교육 인프라를 설계하는 데 중요한 고려 사항입니다.
이 보고서에서는 AI 체크포인팅을 위한 SSD 성능을 평가하고, 체크포인트 속도가 중요한 경우 최신 Gen5 SSD의 이점을 평가하고, 시장에서 가장 큰 QLC SSD와 비교하여 평가하고자 했습니다. 이 SSD는 훈련 중인 모델에 더 유익할 경우 방대한 수의 체크포인트를 저장할 수 있습니다.
체크포인트 성능 – DLIO를 사용한 벤치마킹
AI 훈련 환경에서 Solidigm SSD의 실제 성능을 평가하기 위해 다음을 활용했습니다. 데이터 및 학습 입력/출력(DLIO) 벤치마크 도구. Argonne National Laboratory에서 개발한 DLIO는 딥 러닝 워크로드에서 I/O 패턴을 테스트하도록 특별히 설계되었습니다. 스토리지 시스템이 체크포인팅, 데이터 수집 및 모델 학습 과제를 처리하는 방법에 대한 통찰력을 제공합니다.
DLIO와 협력하여 집중적인 체크포인팅 시나리오에서 드라이브의 처리량, 대기 시간 및 안정성을 측정하고자 했습니다. 이 테스트는 61.44TB D5-P5336에서 수행되었지만 초기 성능 데이터는 Solidigm D5-P5336 122TB 버전이 유사한 성능 프로필을 제공한다는 것을 보여주었습니다. 또한 이 테스트에서 PCIe Gen7의 장점을 보여주기 위해 TLC 기반 D1010-PS5의 결과도 포함했습니다. 체크포인트에서 두 각도를 보여주기 위해 이 두 드라이브를 선택했는데, 하나는 가능한 가장 빠른 체크포인트 시간이고 다른 하나는 단일 SSD에 가장 많은 체크포인트를 저장하는 것입니다.
이 작업에 선택된 플랫폼은 Ubuntu 760 LTS를 실행하는 Dell PowerEdge R22.04.02이었습니다. 2.0년 13월 2024일 릴리스의 DLIO 벤치마크 버전 XNUMX을 사용했습니다. 시스템 구성은 아래와 같습니다.
- 2 x Intel Xeon Gold 6430(32코어, 2.1GHz)
- 16 x 64GB DDR5-4400
- 480GB 델 보스 SSD
- 직렬 케이블 Gen5 JBOF
- 7.68TB 솔리드다임 D7-PS1010
- 61.44TB 솔리드다임 D5-P5336
벤치마킹이 실제 시나리오를 반영하도록 하기 위해 LLAMA 3.1 405B 모델 아키텍처를 기반으로 테스트를 진행했으며, torch.save()를 통해 체크포인팅을 구현하여 모델 매개변수, 옵티마이저 상태, 레이어 상태를 캡처했습니다. 8-GPU 시스템을 시뮬레이션하여 4방향 텐서 병렬 및 2방향 파이프라인 병렬 처리를 1,636개 GPU에 분산하는 하이브리드 병렬 처리 전략을 구현했습니다. 이 구성으로 인해 체크포인트 크기가 XNUMXGB가 되었으며, 이는 최신 대규모 언어 모델 학습 요구 사항을 나타냅니다.
DLIO 체크포인트 워크로드에 대한 테스트 프로세스는 각 드라이브를 유사한 사용률 수준으로 채우는 것으로 구성되었습니다. 61.44TB Solidigm D5-P5336의 경우 각 패스에 33개의 체크포인트 간격이 포함되어 총 54TB가 되었습니다. 더 작은 7.68TB D7-PS1010은 4.9개의 체크포인트 간격에 편안하게 들어맞았고 총 풋프린트는 7TB였습니다. D1010-PSXNUMX에 체크포인트 하나를 더 넣을 수 있었지만 사용률이 우리가 원했던 것보다 약간 더 높아졌습니다.
Gen4 QLC 기반 61.44TB D5-P5536을 Gen5 TLC 기반 7.68TB D7-PS1010과 비교했을 때 DLIO 체크포인트 워크로드는 흥미로운 결과를 보였습니다. 첫 번째 패스에서 드라이브가 채워지면서 두 SSD 모델 간의 성능 격차가 더 벌어지는 것을 확인했습니다. 더 빠른 Gen5 PS1010은 각 체크포인트를 평균 464초 만에 완료한 반면 Gen623 P4은 5336초가 걸렸습니다. 패스 579와 587에서는 PS1010의 격차가 676초와 680초로 좁아졌고 P5336의 격차는 XNUMX초와 XNUMX초로 좁혀졌습니다.
체크포인트 간격에서 가능한 한 작은 갭을 원하는 기업의 경우 TLC 기반 Gen5 PS1010은 가장 빠른 완료 시간에서 이점을 제공합니다. 목표가 많은 체크포인트를 비용 효율적으로 유지하는 것이라면 QLC 기반 Gen4 P5336이 바로 그것을 할 수 있습니다. 패스 17와 XNUMX에서 두 드라이브 간의 평균 체크포인트 시간 차이가 XNUMX% 미만인 것으로 측정되었습니다.
GPUDirect 스토리지 대역폭
DLIO가 AI 워크플로에서 플래시 성능을 보여주는 반면, 작업 부하는 체크포인트가 복구될 때까지 전적으로 쓰기 기반입니다. AI 작업 부하에서 Solidigm D7-PS1010 및 D5-P5336의 더 완전한 그림을 그리기 위해 GDSIO를 사용하여 읽기 대역폭 측정을 포함했습니다.
GPU 직접 스토리지 작동 방식
전통적으로 GPU가 NVMe 드라이브에 저장된 데이터를 처리할 때 데이터는 GPU에 도달하기 전에 먼저 CPU와 시스템 메모리를 거쳐야 합니다. 이 프로세스는 CPU가 중개자가 되어 지연 시간을 늘리고 귀중한 시스템 리소스를 소모하기 때문에 병목 현상이 발생합니다. GPU Direct Storage는 GPU가 PCIe 버스를 통해 스토리지 장치에서 직접 데이터에 액세스할 수 있도록 하여 이러한 비효율성을 제거합니다. 이 직접 경로는 데이터 이동과 관련된 오버헤드를 줄여 더 빠르고 효율적인 데이터 전송을 가능하게 합니다.
AI 워크로드, 특히 딥 러닝과 관련된 워크로드는 매우 데이터 집약적입니다. 대규모 신경망을 훈련하려면 테라바이트 규모의 데이터를 처리해야 하며, 데이터 전송이 지연되면 GPU 활용도가 낮아지고 훈련 시간이 길어질 수 있습니다. GPU Direct Storage는 데이터가 가능한 한 빨리 GPU에 전달되도록 하여 유휴 시간을 최소화하고 계산 효율성을 극대화함으로써 이러한 과제를 해결합니다.
DLIO 테스트와 마찬가지로 목표는 고속 Gen5 SSD와 대용량 QLC 드라이브의 차이점을 더 잘 이해하고 특성화하는 것입니다. 모든 AI 워크로드가 동일한 것은 아니며 각 드라이브는 필요에 따라 뚜렷한 이점을 제공합니다.
테스트 구성 매트릭스
우리는 테스트 플랫폼에서 NVIDIA L4를 사용하여 다음 매개변수의 모든 조합을 체계적으로 테스트했습니다.
- 블록 크기: 1M, 128K, 64K, 16K, 8K
- 스레드 수: 128, 64, 32, 16, 8, 4, 1
- 일자리 수: 16
- 배치 크기: 16
우리가 처음 살펴본 것은 5의 IO 깊이에서 5336M 전송 크기를 사용하여 4.2GiB/s에서 최고치를 기록한 QLC 기반 D1-P128이었습니다. 블록 크기의 효과는 대역폭을 상당히 증가시켜 8K에서 1M으로 이동했습니다. 증가된 IO 깊이의 이점은 32에서 감소하기 시작했으며, 워크로드가 수평을 이루기 시작했습니다.
다음으로, 5M 블록 크기와 1010의 IO 깊이에서 최대 6.2GiB/s까지 확장할 수 있는 Gen1 PS-128을 살펴보겠습니다. 전반적으로 Gen4 기반 P5336보다 성능이 우수했으며, 특정 워크로드에서 상당한 향상이 나타났습니다. 주목할 만한 개선 영역 중 하나는 128K 블록 크기에서 나타났는데, 64 및 128의 IO 깊이에서 PS1010은 P5336의 두 배의 읽기 대역폭을 제공했습니다.
두 SSD 모두 NVIDIA L4를 사용하여 테스트되었다는 점에 유의하는 것이 중요합니다. Gen4 D5-P5336은 최상위 수준 또는 그 근처에 있지만, H100과 같은 상위 모델 NVIDIA GPU는 D7-PS1010에서 더 높은 성능을 보였습니다. 드라이브의 속도는 일부 고객에게 궁극적인 결정 요인인 반면, 다른 고객은 전체 밀도를 우선시합니다. 솔리다임 솔루션을 제공합니다 둘 다, 그것과 함께 QLC 및 TLC SSD 제공.
결론
AI 훈련의 규모와 복잡성이 계속 급증함에 따라 기본 스토리지 인프라는 속도를 따라갈 뿐만 아니라 템포도 설정해야 합니다. 두 개의 매우 다른 SSD를 사용한 테스트는 비용 효율적인 확장성을 위해 체크포인트 지연을 최소화하거나 체크포인트 밀도를 최대화하는 것과 같이 특정 훈련 우선순위에 스토리지 솔루션을 맞추는 것의 중요성을 보여줍니다.
평가에서 우리는 DLIO 벤치마크와 광범위한 하이브리드-병렬 LLM 체크포인팅 워크플로를 사용하여 현실적인 AI 훈련 조건에서 Solidigm D5-P5336(61.44TB)과 D7-PS1010(7.68TB)을 테스트했습니다. 드라이브가 채워지면서 여러 실행에 걸쳐 체크포인트 쓰기 성능을 반영하는 메트릭을 포착하여 Gen4 QLC 기반 D5-P5336과 Gen5 TLC 기반 D7-PS1010 간의 완료 시간 차이를 강조했습니다.
D7-PS1010이 가능한 가장 빠른 체크포인트 쓰기를 제공한 반면, D5-P5336은 적당한 성능 저하만 있지만 매력적인 비용 효율성과 용량 이점을 보여주었습니다. NVIDIA L4 GPU를 통해 GDSIO로 GPU Direct Storage 읽기 대역폭을 추가로 조사했습니다. Solidigm D5-P5336은 4.2M 전송 크기로 최대 1GiB/s의 읽기 대역폭을 제공하는 반면, D7-PS1010은 6.2GiB/s로 상당한 향상을 제공했습니다. NVIDIA L40s 또는 H100/H200과 같은 더 큰 GPU를 활용하면 더 강력한 성능을 볼 수 있습니다.
앞으로 Solidigm D5-P5336 122TB SSD의 전례 없는 용량은 AI 교육 및 배포를 재편할 것입니다. 모델 크기와 체크포인팅 요구 사항이 계속 급증함에 따라 이러한 거대한 드라이브는 새로운 수준의 효율성과 유연성으로의 문을 열어 이전에는 도달할 수 없었던 교육 전략을 가능하게 합니다. 대용량 SSD 솔루션 분야에서 Solidigm의 리더십은 조직이 더 적은 드라이브에 더 많은 데이터와 체크포인트를 저장할 수 있도록 지원하고 차세대 AI 복잡성에 대비하여 인프라를 미래 지향적으로 보호할 수 있도록 지원합니다.
이 보고서는 Solidigm이 후원합니다. 이 보고서에 표현된 모든 견해와 의견은 고려 중인 제품에 대한 우리의 공정한 견해를 기반으로 합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드