홈페이지 Enterprise 스토리지 및 GPU가 AI 워크로드에 미치는 영향

스토리지 및 GPU가 AI 워크로드에 미치는 영향

by 브라이언 빌러
바이트레이크

IT 공급업체의 솔루션이 인공 지능, 딥 러닝, 머신 러닝 또는 에지 인텔리전스와 관련된 조직에 미치는 영향에 대해 거의 일주일이 지나지 않습니다. 그러나 문제는 이러한 솔루션이 이러한 각 작업의 성능에 미치는 영향에 대한 실질적인 통찰력이 부족하다는 것입니다. 최근에 우리는 폴란드에 본사를 둔 AI 및 HPC 솔루션 빌더인 byteLAKE와 협력하여 이에 대해 무언가를 할 수 있는지 확인하기로 결정했습니다. 주요 목표는 스토리지와 GPU가 AI 워크로드에 미치는 영향을 평가하는 것입니다.IT 공급업체의 솔루션이 인공 지능, 딥 러닝, 머신 러닝 또는 에지 인텔리전스와 관련된 조직에 미치는 영향에 대해 거의 일주일이 지나지 않습니다. 그러나 문제는 이러한 솔루션이 이러한 각 작업의 성능에 미치는 영향에 대한 실질적인 통찰력이 부족하다는 것입니다. 최근에 우리는 폴란드에 본사를 둔 AI 및 HPC 솔루션 빌더인 byteLAKE와 협력하여 이에 대해 무언가를 할 수 있는지 확인하기로 결정했습니다. 주요 목표는 스토리지와 GPU가 AI 워크로드에 미치는 영향을 평가하는 것입니다.

스토리지가 AI에 미치는 영향

처음에는 로컬 스토리지가 AI 모델의 성능에 영향을 미친다는 일반적인 개념을 살펴보고 싶었습니다. 우리는 델 EMC 파워에지 R740xd 6130GB DRAM이 장착된 256개의 Intel Xeon Gold XNUMX CPU로 구성된 우리 연구실의 서버. 세 가지 다른 로컬 스토리지 대안을 사용하여 byteLAKE AI 테스트를 실행했습니다. 테스트를 위해 레거시를 사용했습니다. 키옥시아 PX04S SSD와 함께 훨씬 더 빠르고, 삼성 983 ZET 그리고 인텔 옵테인 900P.

스토리지 GPU AI Dell EMC 740

벤치마크 중에 AI 학습 프로세스의 성능을 분석했습니다. 테스트에서는 실제 시나리오에 대한 학습 프로세스를 실행합니다. 이 경우 테스트는 byteLAKE 제품 중 하나에서 교육 절차의 일부였습니다. EWA 가드. 최첨단 실시간 탐지 모델인 최신 YOLO(You Only Look Once)를 기반으로 합니다. 모델은 단일 입력 계층, 22개의 컨볼루션 계층, 5개의 풀링 계층, 2개의 라우터 계층, 단일 재구성 계층 및 단일 감지 계층으로 구성됩니다.

성능의 기본 메트릭으로 5000 epoch에 대한 교육 실행 시간을 사용했습니다. 벤치마크는 각 스토리지 구성에 대해 세 번 반복되었으며 평균값은 아래에 나와 있습니다.

결과 :

  • 키옥시아 98시간 24분
  • 삼성 98시간 44
  • 인텔 98h 42

데이터에서 알 수 있듯이 로컬 스토리지는 성능에 영향을 미치지 않았습니다. 테스트 범위는 SATA SSD에서 가장 뛰어난 최신 Optane에 이르기까지 영향이 전혀 없었습니다. 즉, 스토리지는 데이터 수신 및 송신과 관련하여 더 중요한 역할을 할 수 있지만 AI의 경우 계산적으로는 영향이 없었습니다.

GPU 및 스토리지가 AI에 미치는 영향

스토리지 데이터를 가지고 PowerEdge에 단일 NVIDIA T4를 추가하여 GPU가 AI에 미치는 영향을 측정했습니다. 이 테스트를 위해 동일한 세 가지 스토리지 구성도 실행했습니다.

엔비디아 테슬라 T4

결과 :

  • 키옥시아 4시간 30분
  • 삼성 4시간 28분
  • 인텔 4시간 27분

예상대로 GPU는 실제로 기하급수적인 영향을 미쳐 22배의 향상을 가져왔습니다. GPU가 AI의 전반적인 성능을 가속화함에 따라 더 빠른 스토리지가 영향을 미칠 수 있다는 생각이 있었습니다. 그러나 SATA 드라이브가 고속 NVMe와 일치했기 때문에 그렇지 않았습니다.

결론

이 테스트에서 우리는 더 빠른 저장 장치를 사용하는 것이 학습 성능을 향상시키지 못한다는 것을 발견했습니다. 주된 이유는 AI 모델의 복잡한 구조 때문입니다. 학습 시간은 데이터를 읽는 시간보다 길다. 달리 말하면, 현재 이미지 배치를 사용하여 학습하는 시간은 다음 이미지를 읽는 데 필요한 시간보다 깁니다. 결과적으로 저장 작업은 AI 계산 뒤에 숨겨져 있습니다.

NVIDIA T4를 추가할 때 AI의 빠른 처리가 스토리지를 유도하여 성능에 영향을 미칠 것이라는 생각이 있었습니다. 이 테스트에서는 그렇지 않았습니다. T4에서도 AI 모델은 여전히 ​​더 무거운 학습 구성 요소를 가지고 있었고 특히 빠른 스토리지가 필요하지 않았습니다.

특정 구성 요소 및 시스템이 AI에 미치는 영향을 추가로 테스트하려면 더 많은 작업을 수행해야 하지만 이 초기 데이터가 유용하고 대화를 위한 좋은 출발점이라고 생각합니다. IT 관점에서 올바른 수단이 어디에 있고 예산 지출이 가장 영향력 있는 결과를 가져올 수 있는 곳을 더 잘 이해할 수 있으려면 애플리케이션 데이터가 필요합니다. 물론 이는 데이터 센터 또는 에지 등 이 활동이 발생하는 위치에 따라 크게 달라집니다. 현재 우리는 byteLAKE와 AI 창 끝에 있는 다른 사람들이 이러한 긴급한 질문에 답하는 데 도움이 되는 유용한 데이터를 제공하는 것을 환영합니다.

이것은 우리의 첫 번째 AI 테스트이지만 마지막은 아닙니다. byteLAKE의 공동 설립자인 Mariusz Kolanko는 다음과 같은 제품을 개발 중이라고 밝혔습니다. CFD 제품군 (솔버를 가속화하기 위한 전산 유체 역학 "CFD"용 AI) 딥 러닝 프로세스는 훈련의 모든 시대에 대해 많은 데이터를 필요로 합니다. 이 모델은 실제로 빅 데이터 영역에서 모델을 교육하기 위해 스토리지에 더 많은 부하를 줄 수 있으며 딥 러닝 프로세스 자체의 성능에 영향을 미칠 수 있습니다. 궁극적으로 다른 애플리케이션과 마찬가지로 적절한 데이터 센터 리소스를 할당하기 위해 애플리케이션 요구 사항을 이해하는 것이 중요합니다. AI는 분명히 모든 애플리케이션에 맞는 하나의 크기가 아닙니다.

byteLAKE에 대해 자세히 알아보기

Reddit에서 토론

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 페이스북 | RSS 피드