홈페이지 Enterprise 기록적인 성능을 제공하는 NVIDIA Bluefield-2 DPU

기록적인 성능을 제공하는 NVIDIA Bluefield-2 DPU

by 해롤드 프리츠

NVIDIA는 NVIDIA BlueField-2 출시와 함께 데이터 처리 장치(DPU)의 진화를 계속합니다. NVIDIA BlueField-2 DPU는 데이터 센터 인프라 온 칩으로 유명하며 엔터프라이즈 클라우드 및 HPC 워크로드에 최적화되어 있습니다. BlueField-2는 NVIDIA ConnectX-6 Dx 네트워크 어댑터를 Arm 코어 어레이 및 인프라별 오프로드와 결합하고 완전한 소프트웨어 프로그래밍 기능을 갖춘 전용 하드웨어 가속 엔진을 제공합니다. Brian은 올해 초 정기적인 팟캐스트 중 하나에서 NVIDIA와 토론했습니다. 당신은 일부를 얻을 수 있습니다 여기에서 NVIDIA DPU 세부 정보를 확인하세요.

NVIDIA는 NVIDIA BlueField-2 출시와 함께 데이터 처리 장치(DPU)의 진화를 계속합니다. NVIDIA BlueField-2 DPU는 데이터 센터 인프라 온 칩으로 유명하며 엔터프라이즈 클라우드 및 HPC 워크로드에 최적화되어 있습니다. BlueField-2는 NVIDIA ConnectX-6 Dx 네트워크 어댑터를 Arm 코어 어레이 및 인프라별 오프로드와 결합하고 완전한 소프트웨어 프로그래밍 기능을 갖춘 전용 하드웨어 가속 엔진을 제공합니다. Brian은 올해 초 정기적인 팟캐스트 중 하나에서 NVIDIA와 토론했습니다. 당신은 일부를 얻을 수 있습니다 여기에서 NVIDIA DPU 세부 정보를 확인하세요.

엔비디아 블루필드-2

기능은 인상적이지만 먼저 DPU의 진화를 살펴 보겠습니다. 역사에 관심이 없다면 NVIDIA BlueField-2에 대한 세부 정보로 건너뛸 수 있습니다. 90년대에 Intel x86 프로세서가 OS와 결합하여 기업에 비교할 수 없는 성능을 제공하면서 시작되었습니다. 다음은 클라이언트/서버가 등장한 다음 분산 처리가 등장했습니다. 소프트웨어 개발과 성장하는 데이터베이스가 빠르게 가속화되어 데이터 센터에 대한 하드웨어 배포가 폭발적으로 증가했습니다.

2000년대 초 VMware는 ESX 하이퍼바이저를 도입하고 x86 CPU를 가상화하여 단일 서버에서 여러 운영 체제 인스턴스를 실행할 수 있도록 했습니다. VM이 반드시 새로운 것은 아닙니다. IBM은 ESX 하이퍼바이저를 만들기 전에 수년 동안 메인프레임에서 가상 머신을 실행했습니다. 그러나 이러한 발전은 데이터 센터 인프라 집계 성장으로 이어졌습니다.

하드웨어는 이제 수동 개입 없이 가상 머신을 정의하고 프로비저닝하는 코드를 작성하는 개발자로 프로그래밍할 수 있습니다. 이로 인해 결국 클라우드 컴퓨팅으로의 마이그레이션이 추진되었습니다.

VMware는 ESX 플랫폼의 성공을 깨닫고 신속하게 스토리지 및 네트워크 가상화로 전환했습니다. 이에 뒤지지 않기 위해 EMC는 Cisco와 협력하여 자체 가상화 네트워크 및 스토리지 솔루션을 구축했습니다. 많은 인수가 발생했습니다. VMware는 vSphere 플랫폼에 통합된 vSANS를 개발했습니다.

이러한 융합 인프라의 발전을 소프트웨어 정의 데이터 센터(SDDC)라고 합니다. 빅 플레이어인 Microsoft, VMware, Cisco 및 EMC는 모두 SDDC 시장에서 승리하기 위해 출격했습니다. I/O, 보안, OS, 애플리케이션 등 모든 것이 프로그래밍 가능해졌습니다. SDDC는 다른 서비스에 사용되는 가용 리소스에 부담을 주는 CPU 구성 요소에 불과했습니다.

이러한 모든 수렴 및 프로그래밍 가능성은 이러한 그래픽 집약적 응용 프로그램의 처리 요구 사항을 해결하기 위해 GPU가 개발된 인공 지능(AI) 개발로 이어집니다. 이로 인해 CPU에서 일부 작업을 오프로드하는 하드웨어가 개발되었습니다. 일반적으로 CPU를 많이 사용하는 네트워킹 기능은 오프로드되었고 NVIDIA는 이 새로운 기회에 뛰어들어 스마트 네트워크 어댑터를 개발하기 위해 Mellanox를 인수했습니다.

GPU는 더 똑똑해졌고 스마트 NIC는 전체 SDDC 집계에서 네트워크 및 그래픽 처리를 제거하는 데 중추적인 역할을 했습니다. 궁극적으로 DPU의 개발은 CPU에서 지능을 오프로드한 결과입니다.

새로운 NVIDIA BlueField-2 DPU는 멀티 코어 CPU, 고성능 네트워크 인터페이스 및 프로그래밍 가능한 가속 엔진을 결합한 시스템 온 칩을 만들었습니다.

NVIDIA BlueField-2 DPU – 육류

CPU v GPU v DPU: DPU가 다른 점은 무엇입니까? 

DPU는 세 가지 핵심 요소를 결합한 새로운 종류의 프로그래밍 가능한 프로세서입니다. DPU는 다음을 결합하는 칩 또는 SoC의 시스템입니다.

  1. 일반적으로 널리 사용되는 Arm 아키텍처를 기반으로 하는 업계 표준, 고성능, 소프트웨어 프로그래밍 가능 멀티 코어 CPU로 다른 SoC 구성 요소와 긴밀하게 결합되어 있습니다.
  2. 라인 속도 또는 네트워크의 나머지 속도로 데이터를 구문 분석, 처리 및 효율적으로 GPU 및 CPU로 전송할 수 있는 고성능 네트워크 인터페이스입니다.
  3. AI 및 머신 러닝, 보안, 통신 및 스토리지를 위한 애플리케이션 성능을 오프로드하고 개선하는 유연하고 프로그래밍 가능한 다양한 가속 엔진 세트입니다.

NVIDIA® BlueField®-2 DPU는 최신 클라우드 및 HPC에 최적화된 최초의 데이터 센터 인프라 온 칩입니다. 데이터 센터 인프라를 오프로드, 가속화 및 격리하는 기능과 함께 광범위한 가속화된 소프트웨어 정의 네트워킹, 스토리지, 보안 및 관리 서비스를 제공합니다. 200Gb/s 이더넷 또는 InfiniBand 연결 기능을 갖춘 BlueField-2 DPU는 컨트롤 플레인과 데이터 플레인 모두에 대한 네트워크 경로를 가속화하고 "제로 트러스트" 보안으로 무장하여 데이터 위반 및 사이버 공격을 방지합니다.

NVIDIA ConnectX®-6 Dx는 네트워크 어댑터를 Arm® 코어 어레이 및 인프라별 오프로드와 결합하여 완전한 소프트웨어 프로그래밍 기능을 갖춘 전용 하드웨어 가속 엔진을 제공합니다. 모든 서버의 가장자리에 있는 BlueField-2는 민첩하고 안전한 고성능 클라우드 및 인공 지능(AI) 워크로드를 지원하고 TCO를 줄이면서 데이터 센터 효율성을 높입니다.

NVIDIA DOCA™ 소프트웨어 프레임워크를 통해 개발자는 BlueField-2 DPU용 애플리케이션 및 서비스를 신속하게 생성할 수 있습니다. NVIDIA DOCA는 DPU 하드웨어 가속기를 활용하여 데이터 센터 성능, 효율성 및 보안을 향상시킵니다.

NVIDIA BlueField-2 DPU 기능

네트워크 및 호스트 인터페이스

스토리지
네트워크 인터페이스  BlueField SNAP – NVMe™ 및 VirtIO-blk
 이더넷 – 10/25/50/100Gb/s의 이중 포트 또는 200Gb/s의 단일 포트  NVMe-oF™ 가속
 InfiniBand – EDR/HDR100의 듀얼 포트 또는 HDR의 단일 포트  압축 및 감압 가속
PCI 익스프레스 인터페이스  데이터 해싱 및 중복 제거
 PCIe Gen 8의 16개 또는 4.0개 레인  DAS용 M.2 / U.2 커넥터
 8개의 다운스트림 포트가 있는 PCIe 스위치 분기 네트워킹
ARM/DDR 서브시스템   RoCE, 제로터치 RoCE
암 코어   다음에 대한 상태 비저장 오프로드:
 최대 8개의 Armv8 A72 코어(64비트) 파이프라인  TCP/UDP/IP
 1코어당 2MB L2 캐시   LSO/LRO/체크섬/RSS/TSS/HDS
 여러 퇴거 정책이 포함된 6MB L3 캐시  VLAN 삽입/제거
DDR4 DIMM 지원   SR-IOV
 단일 DDR4 DRAM 컨트롤러   VirtIO-net
 8GB / 16GB / 32GB 온보드 DDR4   포트별 다기능
 ECC 오류 방지 지원   VMware NetQueue 지원
하드웨어 가속   가상화 계층
보안   1K 수신 및 송신 QoS 레벨
 하드웨어 신뢰 루트로 보안 부팅 부트 옵션
 보안 펌웨어 업데이트  보안 부팅(RSA 인증)
 Cerberus 준수  이더넷을 통한 원격 부팅
 정규식(RegEx) 가속  iSCSI를 통한 원격 부팅
 IPsec/TLS 이동 중 데이터 암호화  PXE 및 UEFI
 AES-GCM 128/256비트 키
 AES-XTS 256/512비트 유휴 데이터 암호화  1GbE 대역 외 관리 포트
 SHA 256비트 하드웨어 가속  NC-SI, SMBus를 통한 MCTP 및 PCIe를 통한 MCTP
 하드웨어 공개 키 가속기  모니터 및 제어용 PLDM DSP0248
 RSA, 디피-헬만, DSA, ECC,  펌웨어 업데이트 DSP026용 PLDM
EC-DSA, EC-DH  장치 제어 및 구성을 위한 I2C 인터페이스
 진정한 난수 생성기(TRNG)  플래시에 대한 SPI 인터페이스
 eMMC 메모리 컨트롤러
 UART
 USB

스토리지, 네트워크 및 머신 러닝을 위한 DPU

새로운 BlueField-2가 빠른 스토리지 기술을 다루는 방법을 살펴보겠습니다. BlueField는 NVMe-oF(NVMe over Fabrics), AFA(All-Flash Array) 및 JBOF용 스토리지 컨트롤러, 서버 캐싱(memcached), 분리형 랙 스토리지, 스케일아웃 다이렉트-아웃과 같은 스토리지 플랫폼을 위한 완벽한 솔루션을 제공합니다. 부착된 보관함. 이 DPU의 스마트함 덕분에 유연한 선택이 가능합니다.

NVIDIA는 인상적인 테스트 결과를 게시했습니다. 여기 BlueField-2. 테스트 환경은 블로그에 포함되어 있습니다.

완벽한 스토리지 솔루션

BlueField-2는 NVMe-oF, Ceph, Lustre, iSCSI/TCP 오프로드, 플래시 변환 계층, 데이터 압축/압축 해제 및 중복 제거를 사용하는 올플래시 어레이와 같은 스토리지 애플리케이션에 Arm 코어의 처리 능력을 활용합니다.

고성능 스토리지 어레이에서 BlueField-2는 스토리지 컨트롤러 작업 및 트래픽 종료를 처리하는 시스템의 기본 CPU 역할을 합니다. 또한 코프로세서로 구성하여 호스트에서 특정 스토리지 작업을 오프로드하거나 호스트에서 스토리지 미디어의 일부를 분리하거나 BlueField Arm 코어를 사용하여 소프트웨어 정의 스토리지 논리의 추상화를 활성화할 수 있습니다.

NVMe over Fabrics 기능

NVMe-oF의 고급 기능을 활용하는 BlueField RDMA 기반 기술은 최소한의 CPU 오버헤드로 로컬 스토리지와 동일한 원격 스토리지 액세스 성능을 제공하여 효율적인 분리 스토리지 및 하이퍼 컨버지드 솔루션을 가능하게 합니다.

스토리지 가속

BlueField 임베디드 PCIe 스위치를 통해 고객은 독립형 스토리지 어플라이언스를 구축하고 단일 BlueField를 외부 스위치가 없는 여러 저장 장치.

서명 전달

BlueField 임베디드 네트워크 컨트롤러는 하드웨어를 가능하게 합니다. T10 데이터 무결성 필드/보호 정보(T10-DIF/PI)를 확인하여 소프트웨어 오버헤드를 줄이고 애플리케이션으로의 데이터 전달을 가속화합니다. 서명 핸드오버는 수신 및 송신 패킷에서 어댑터에 의해 처리되어 초기자 및 대상 시스템에서 소프트웨어의 로드를 줄입니다.

네트워킹 및 보안을 위한 BlueField

smartNIC 형태이든 독립형 네트워크 플랫폼이든 관계없이 새로운 Bluefield-2는 네트워킹 애플리케이션의 효율적인 배포를 제공합니다. 고급 오프로드와 Arm 컴퓨팅의 조합 사용 기능, BlueField는 네트워크 및 보안 프로토콜을 종료합니다. 인라인. 

블루필드 스마트NIC 

네트워크 어댑터로서 전체 또는 부분적으로 유연하게 사용할 수 있습니다. 데이터 및 컨트롤 플레인을 구현하여 컴퓨팅 리소스를 보다 효율적으로 사용할 수 있습니다. 어댑터의 프로그래밍 가능성은 새로운 데이터와 컨트롤 플레인 기능을 통합하는 기능을 제공합니다.

BlueField 보안 기능

보안에 관해서는, 대칭 및 비대칭을 위한 암호화 오프로드 통합 암호화 작업은 보안 응용 프로그램을 구현하는 데 탁월한 선택입니다. 보안은 데이터 센터의 DNA에 내장되어 있습니다. 인프라, 위협 노출 감소, 위험 최소화 및 지원 잠재적 위협에 대한 예방, 탐지 및 대응을 실시간으로 수행합니다.

고통 없는 가상화 

NVIDIA의 PCIe SR-IOV 기술, 데이터 센터 관리자 서버 활용도를 높이는 동시에 비용, 전력 및 케이블 복잡성, 더 많은 가상 머신 및 더 많은 테넌트 허용 동일한 하드웨어에서. 이것은 확실히 모든 TCO 문제를 해결합니다.

오버레이 네트워크 

데이터 센터 운영자는 네트워크 오버레이 기술(VXLAN, NVGRE, GENEVE) 확장성 장벽을 극복합니다. 를 제공함으로써 캡슐화/캡슐화 해제하는 고급 오프로딩 엔진 오버레이 프로토콜 헤더, 이 DPU는 기존 오프로드를 허용합니다. 터널링된 프로토콜에서 작동하고 NAT 라우팅을 오프로드합니다. 기능.

기계 학습 환경을 위한 BlueField

물론 NVIDIA는 기계 학습 어플라이언스를 위한 비용 효율적이고 통합적인 솔루션을 제공하는 이 새로운 DPU로 AI/ML 시장을 공략했습니다. PCIe Gen 3.0/4.0 인터페이스를 통해 여러 GPU를 연결할 수 있습니다. RDMA 및 GPUDirect® RDMA 기술을 통해 BlueField-2는 실시간 분석 및 데이터 통찰력을 위한 효율적인 데이터 전달을 제공합니다.

RDMA 가속

네트워크 컨트롤러 데이터 경로 하드웨어는 RDMA 및 RoCE 기술을 활용하여 거의 XNUMX에 가까운 CPU 주기로 낮은 대기 시간과 높은 처리량을 제공합니다.

다중 GPU 플랫폼용 BlueField

BlueField-2를 통해 여러 GPU를 연결할 수 있습니다. 통합 PCIe 스위치. BlueField PCIe 4.0 지원은 차세대 GPU 장치를 위한 미래 보장형입니다.

피어다이렉트® 

Mellanox 제품인 PeerDirect는 가속화된 통신 아키텍처입니다. BlueField와 PXNUMXP 통신을 지원하는 GPU(예: NVIDIA GPUDirect RDMA)와 같은 타사 하드웨어, 보조 프로세서 어댑터(예: Intel Xeon Phi) 또는 스토리지 어댑터. PeerDirect는 표준화된 아키텍처를 제공합니다. 장치는 패브릭을 통해 원격 장치와 직접 통신할 수 있으므로 불필요한 시스템 메모리 복사 및 CPU를 피할 수 있습니다. 데이터를 장치로/에서 직접 복사하여 오버헤드.

GPU다이렉트 RDMA 기술

그래픽 하드웨어 성능의 급속한 증가, 결합 최근 GPU 프로그래밍 기능이 개선되어 그래픽 컴퓨팅 요구 사항을 위한 강력한 플랫폼인 액셀러레이터 다양한 애플리케이션 도메인의 작업. GPU가 제공하기 때문에 높은 코어 수 및 부동 소수점 연산 기능, 플랫폼 간 연결을 위해 고속 네트워킹 필요 GPU-to-GPU에 대해 높은 처리량과 최저 대기 시간 제공 연락. GPUDirect RDMA는 구현된 기술입니다. 직접 경로를 가능하게 하는 Bluefield-2 및 NVIDIA GPU 내 GPU와 고속 데이터 교환을 위해 상호 연결합니다.

GPUDirect RDMA는 두 가지 모두에 대해 크기 순서 개선을 제공합니다. GPU 간의 통신 대역폭 및 통신 대기 시간 다른 클러스터 노드의 장치.

결론

NVIDIA 테스트에서 BlueField DPU의 다음과 같은 성능 특성이 밝혀졌습니다.

  • 더 작은 512B I/O 크기로 테스트한 결과 IOPS는 더 높았지만 회선 속도보다 처리량이 낮았고, 4KB I/O 크기는 처리량이 더 많았지만 IOPS 수치는 더 낮았습니다.
  • 100% 읽기 및 100% 쓰기 워크로드는 유사한 IOPS 및 처리량을 제공한 반면, 50/50 혼합 읽기/쓰기 워크로드는 네트워크 연결의 양방향을 동시에 사용하여 더 높은 성능을 생성했습니다.
  • SPDK를 사용하면 커널 공간 소프트웨어보다 더 높은 성능을 얻을 수 있지만 SPDK가 사용자 공간에서 일정한 폴링으로 실행되기 때문에 예상되는 동작인 서버 CPU 사용률이 높아집니다.
  • 최신 Linux 5.15 커널은 Linux 커뮤니티에서 정기적으로 추가하는 스토리지 개선으로 인해 4.18 커널보다 성능이 뛰어났습니다.

전반적으로 내부 테스트의 결과는 매우 인상적입니다. 그만큼 BlueField-2는 41.5만 IOPS에 도달했습니다. 이는 오늘날 시장에 나와 있는 다른 DPU의 XNUMX배 이상입니다.

표준 네트워킹 결과도 인상적이었습니다. DPU는 NVMe-oF의 경우 4만 20KB IOPS 및 512만~XNUMX천만 이상의 XNUMXKB IOPS. 데이터 센터의 전반적인 성능을 개선하려는 경우 이 DPU가 적합해야 합니다.

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 페이스북 | 틱톡 서비스 | RSS 피드