에지 서버는 데이터 센터 및 클라우드에서 떨어져 있는 컴퓨팅 리소스를 제공하여 실시간 의사 결정을 용이하게 합니다. 이 기사에서는 다목적 다중 노드 에지 서버인 SuperMicro IoT SuperServer SYS-210SE-31A에서 여러 에지 벤치마크를 실행합니다. 이 상자는 추론을 위해 태어났기 때문에 엔지니어는 개념을 구상하는 동안 에지 추론을 염두에 두었습니다.
에지 서버는 데이터 센터 및 클라우드에서 떨어져 있는 컴퓨팅 리소스를 제공하여 실시간 의사 결정을 용이하게 합니다. 이 기사에서는 다목적 다중 노드 에지 서버인 SuperMicro IoT SuperServer SYS-210SE-31A에서 여러 에지 벤치마크를 실행합니다. 분명히 엔지니어들은 에지 추론 이 상자는 추론하기 위해 태어났기 때문에 개념화하는 동안 염두에 두어야 합니다.
SuperMicro IoT SuperServer SYS-210SE-31A 개요
당사의 전체 리뷰 SuperMicro IoT SuperServer SYS-210SE-31A는 PCIe 스토리지 카드 및 고속 NIC와 함께 사용할 경우 5G 및 IoT뿐만 아니라 소매 및 스토리지에 대한 가능성을 보여줍니다.
이 서버의 다중 노드 특성으로 인해 다재다능합니다. 각각 다음과 같은 XNUMX개의 CPU 노드에 적합합니다.
- 최대 32C/64T 및 205W의 270세대 Intel Xeon Scalable 프로세서("Ice Lake") XNUMX개(특수 구성의 XNUMXW 칩 옵션 포함).
- XNUMX개의 팬 모듈.
- 2개의 DIMM 슬롯; 메모리 천장은 256GB 3DS DIMM을 사용하여 XNUMXTB입니다.
- 2개의 M.2280 22110/4 PCIe GenXNUMX 슬롯.
- 4개의 PCIe Gen16 x4 전체 높이/절반 길이 및 16개의 PCIe GenXNUMX xXNUMX 절반 높이/절반 길이.
- IMPI 2.0용 GbE XNUMX개 및 KVM 동글.
여기에서 자체 미니 랙마운트 서버처럼 노드를 빼낸 것을 볼 수 있습니다.
이것은 노드의 내부입니다. 모든 것이 얼마나 잘 맞는지 확인하십시오.
이 서버의 주요 약점은 스토리지입니다. 노드 내 스토리지는 2개의 M.2.5 부팅 드라이브 슬롯으로 제한되고 기본 3.5인치 또는 1인치 베이는 없습니다. 언급한 바와 같이 PCIe 스토리지를 상당히 쉽게 추가할 수 있습니다. 네트워크 스토리지도 옵션입니다. XNUMXGbE 이상의 연결은 확장 카드에 따라 다릅니다.
이 서버의 에지 초점을 강조하는 것은 최대 섭씨 45도의 환경에서 작동할 수 있는 능력과 사용 가능한 먼지 필터입니다.
에지 추론: 에지 서버 사례
우리의 기능, 새로운 하드웨어 덕분에 에지 추론이 심각해지고 있습니다., 에지 컴퓨팅의 상태를 설명합니다. 오늘날 에지로의 이동은 계층적 "허브 앤 스포크" 접근 방식이 데이터를 중앙 위치로 다시 가져오는 것이었던 레거시 시대의 후진 이동처럼 보였을 것입니다. 실시간 의사 결정 드라이브는 오늘날 엣지로 이동하여 더 빠른 통찰력과 응답 시간을 제공하고 네트워크 연결에 대한 종속성을 줄입니다.
에지 추론은 일반적으로 시간에 민감하지 않고 중요하지 않은 애플리케이션에 대해서만 클라우드에서 수행할 수 있습니다. 물론 네트워크 연결이 부족하면 클라우드를 사용할 수 없습니다.
SuperMicro IoT SuperServer SYS-210SE-31A에서 에지 테스트
이제 테스트를 진행합니다. 데이터를 처리하는 GPU의 능력은 에지 추론을 주도하고 에지 서버는 일반적으로 NVIDIA A2 및 오래되었지만 널리 사용되는 T4와 같은 단일 슬롯, 로우 프로파일 카드를 고수합니다. 우리가 평가하고 있는 SuperMicro IoT SuperServer SYS-210SE-31A에는 T4가 있습니다. 아래는 오른쪽에 T4, 왼쪽에 A2의 두 카드입니다. 각 노드의 하드웨어 구성에는 Intel Xeon Gold 6330 CPU와 128GB DDR4 RAM이 포함되었습니다.
그리고 여기 SuperMicro 노드 중 하나에 설치된 T4가 있습니다.
T4의 70와트 프로필은 PCIe 슬롯에서 모든 전력을 얻는다는 것을 의미합니다. 튜링 아키텍처는 CPU가 관리할 수 있는 것보다 훨씬 더 나은 FP32, FP16, INT8 및 INT4 정밀 성능을 위한 텐서 코어를 특징으로 합니다. NVIDIA A2는 40W~60W 프로필이 약간 낮지만 더 새롭고 효율적인 아키텍처입니다. 우리의 두 카드 사이의 비교를 참조하십시오 에지 추론 문서 우리가 테스트한 곳에서 레노버 씽크엣지 SE450.
우리는 다양한 실제 에지 시나리오에서 인기 있는 DL 모델의 추론 성능을 비교하는 MLPerf 추론: 에지 벤치마크 제품군을 사용하고 있습니다. 테스트에서 질문 답변 작업을 위한 ResNet50 이미지 분류 모델 및 BERT-Large NLP 모델에 대한 숫자가 있습니다. 둘 다 오프라인 및 SingleStream 구성에서 실행됩니다.
오프라인 시나리오는 모든 테스트 데이터를 즉시 사용할 수 있고 대기 시간이 고려 사항이 아닌 "배치 모드"에서 추론 성능을 평가합니다. 이 작업에서 추론 스크립트는 임의의 순서로 테스트 데이터를 처리할 수 있으며 목표는 초당 쿼리 수(QPS=처리량)를 최대화하는 것입니다. QPS 수치가 높을수록 좋습니다.
반대로 단일 스트림 구성은 한 번에 하나의 테스트 샘플을 처리합니다. 단일 입력(ResNet50의 경우 입력은 단일 이미지)에서 추론이 수행되면 대기 시간이 측정되고 다음 샘플을 추론 도구에서 사용할 수 있습니다. 목표는 각 쿼리를 처리하는 대기 시간을 최소화하는 것입니다. 대기 시간이 낮을수록 좋습니다. 쿼리 스트림의 90번째 백분위수 대기 시간은 간결함을 위해 대상 메트릭으로 캡처됩니다.
아래 이미지는 엔비디아 블로그 시나리오를 매우 잘 시각화하는 MLPerf 추론 0.5에 대한 게시물입니다. 원본에서 다양한 시나리오에 대한 자세한 내용을 읽을 수 있습니다. MLPerf 추론 문서는 여기.
SuperMicro IoT SuperServer SYS-210SE-31A 내부의 두 노드에서 작동하는 워크로드를 테스트했습니다. 세 번째 노드는 예비 노드로 설정되었습니다.
기준 | 노드 1(NVIDIA T4) | 노드 3(NVIDIA T4) |
RestNet50 오프라인 | 5,587개 샘플/초 | 5,492개 샘플/초 |
BERT 싱글스트림 | 6.8ms(90th 퍼센트) | 7.0ms(90th 퍼센트) |
BERT 오프라인 | 397개 샘플/초 | 396개 샘플/초 |
NVIDIA T4는 전반적으로 인상적이었습니다. 노드 1은 약간 더 나은 성능을 보였습니다. 즉, T4는 최신 A2보다 전력 프로필이 더 높은 구형 카드입니다. 우리는 ThinkEdge SE2에서 A450를 테스트한 결과 특정 지점에서 T4보다 대기 시간이 짧으면서도 훨씬 적은 전력을 사용하는 것을 확인했습니다. 애플리케이션 및 전원 고려 사항에 따라 두 가지 중에서 선택해야 합니다. 하지만 지금은 Supermicro 섀시가 이러한 유형의 워크로드를 제공할 수 있는 밀도에 만족합니다.
최종 생각
에지를 향한 경쟁은 에지 컴퓨팅의 급속한 발전을 가져옵니다. GPU, 특히 NVIDIA T4 및 최신 A2와 같은 로우 프로파일, 저전력 옵션보다 더 분명한 것은 없습니다. 우리는 다목적 4노드 에지 서버인 SuperMicro IoT SuperServer SYS-210SE-31A에서 TXNUMX를 테스트했습니다.
T4는 뛰어난 성능을 보여줬고, 연식을 감안하면 더욱 인상적이다. 하지만 A2보다 약간 더 많은 전력을 소비하므로 에지 추론 필요에 따라 현명하게 선택하세요. 우리는 에지 기반 회사가 계속해서 GPU 활용을 최적화함에 따라 유서 깊은 GPU의 수명이 아직 많이 남아 있을 것으로 기대합니다.
또한 Supermicro IoT 서버는 이러한 카드를 처리할 수 있는 장비가 매우 잘 갖춰져 있어 에지에서 매우 조밀한 추론 성능을 제공합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 페이스북 | 틱톡 서비스 | RSS 피드