Fungible은 Fungible Storage Cluster, FSC 1600 고성능 스토리지 노드의 출시로 기존 스토리지 아키텍처의 한계를 제거함으로써 스토리지 플랫폼 설계 방식을 바꾸고 있습니다. Fungible Storage Cluster는 높은 수준의 애플리케이션에 완전히 투명한 고성능, 저지연 NVMe/TCP 분리 스토리지 솔루션을 제공합니다. Fungible DPU™로 구동되는 FSC(Fungible Storage Cluster)는 안전한 고성능 확장형 분해 올플래시 스토리지 플랫폼입니다.
Fungible은 Fungible Storage Cluster, FSC 1600 고성능 스토리지 노드의 출시로 기존 스토리지 아키텍처의 한계를 제거함으로써 스토리지 플랫폼 설계 방식을 바꾸고 있습니다. Fungible Storage Cluster는 높은 수준의 애플리케이션에 완전히 투명한 고성능, 저지연 NVMe/TCP 분리 스토리지 솔루션을 제공합니다. Fungible DPU™로 구동되는 FSC(Fungible Storage Cluster)는 안전한 고성능 확장형 분해 올플래시 스토리지 플랫폼입니다.
대체 가능한 FS1600 플래시 어레이
데이터 처리 장치(DPU)는 기본적으로 시스템 온 칩입니다. 일반적으로 DPU는 네트워킹, 스토리지, 가상화, 보안 및 분석 기능과 같은 데이터 중심 작업을 오프로드하는 멀티 코어 마이크로프로세서, 네트워크 인터페이스 및 가속 엔진으로 구성됩니다. DPU 및 SmartNIC는 엔터프라이즈 및 클라우드 공급자 데이터 센터에서 계속 인기를 얻고 있습니다.
The 대체 가능한 FSC1600 스토리지 클러스터
FS1600은 XNUMX개의 대체 가능한 데이터 처리 장치로 구동됩니다. 고유한 대체 가능한 혁신인 DPU는 인프라 서비스 실행에서 타의 추종을 불허하는 성능과 효율성을 제공하도록 처음부터 설계된 새로운 종류의 마이크로프로세서를 나타냅니다.
대체 가능한 FS1600 내부
대부분의 스토리지 플랫폼은 x86 기반이지만 FS1600은 기본적인 Fungible DPU 기술에 뿌리를 두고 있습니다. 데이터 중심 워크로드를 CPU보다 더 효율적으로 실행하도록 특별히 설계된 DPU를 통해 FS1600은 더 높은 성능을 제공할 수 있습니다. FS1600은 13M IOPS 원시 블록 읽기 성능(4KB)의 임의 읽기 속도, 노드당 75GB/s의 처리량, DAS(직접 연결 스토리지) 시스템보다 훨씬 더 효율적인 성능을 위해 +10μs의 읽기 대기 시간을 특징으로 합니다. 96.5% 성능 효율 백분율(PEP).
DPU 하드웨어 가속기에는 압축, 삭제 코딩, 암호화, 정규식, 심층 패킷 검사 및 DMA가 포함되며 800Gb/s의 회선 속도로 작동합니다. 삭제 코딩을 사용하면 노드에 장애가 발생하면 다른 노드의 패리티 및 데이터 청크를 사용하여 데이터가 재구축되는 반면 호스트는 다중 경로 지정을 통해 데이터에 액세스할 수 있는 대체 경로를 제공합니다. Kubernetes용 CSI(컨테이너 스토리지 인터페이스) 및 VM용 Openstack을 통해 NVMe/TCP 및 관리 소프트웨어와 호환되는 FS1600은 기존 스토리지 시스템을 즉시 대체할 수 있습니다. 호스트 CPU 리소스를 사용하는 특수 에이전트에 대한 요구 사항은 없습니다. 표준 NVMe/TCP 드라이버만 필요합니다. 그리고 기존 애플리케이션은 변경할 필요가 없습니다.
S1 및 F1 DPU 모델
대체 가능한 DPU 모델에는 S1 DPU와 F1 DPU의 두 가지가 있습니다. Fungible 프로세서 제품군은 동일한 하드웨어 및 소프트웨어 공동 설계를 활용하고 동일한 프로그래밍 모델을 공유합니다. 그러나 F1 DPU는 스토리지, 보안, AI 및 분석 서버와 같은 고성능 독립형 어플라이언스용으로 설계되었지만 S1 DPU는 표준 PCIe 어댑터의 설치 공간과 전력 범위 내에서 성능을 극대화합니다.
Fungible S1 DPU는 서버 노드 내에서 데이터 중심 계산을 결합하고 노드 간에 데이터를 효율적으로 이동하는 데 최적화되어 있습니다. 데이터 중심 컴퓨팅은 일반적으로 네트워킹, 보안 및 스토리지 스택에 의해 빠른 속도로 데이터 스트림의 상태 저장 처리가 특징입니다.
대체 가능한 FS1600 후면 포트
S1 DPU는 TrueFabric™ 기술을 통해 서버 노드 간의 데이터 교환을 용이하게 합니다. TrueFabric은 낮은 평균 및 테일 대기 시간, 엔드-투-엔드 QoS, 혼잡 없는 연결 및 서버 노드 간의 보안을 통해 전체 네트워크 단면 대역폭을 제공하는 대규모 IP-over-Ethernet 패브릭 프로토콜입니다. TrueFabric 프로토콜은 완벽하게 표준을 준수하며 TCP/IP over Ethernet과 상호 운용 가능하므로 데이터 센터 Spine-Leaf 네트워크를 표준 규격 이더넷 스위치로 구축할 수 있습니다.
펀OS
S1 및 F1 DPU의 데이터 플레인은 고급 프로그래밍 언어(ANSI-C)로 작성된 전용 운영 체제인 FunOS™를 실행합니다. FunOS는 네트워킹, 스토리지, 보안, 가상화 및 분석 스택을 실행합니다. 컨트롤 플레인은 표준 OS(예: Linux)를 실행하며 S1 및 F1 DPU 클러스터를 REST API 세트로 관리, 제어 및 모니터링할 수 있는 에이전트를 포함합니다. 이러한 REST API는 Kubernetes CSI 플러그인, OpenStack, OpenShift 등과 같은 표준 또는 타사 오케스트레이션 시스템에 통합될 수 있습니다.
이러한 주요 기능을 단일 솔루션으로 결합함으로써 Fungible DPU 프로세서 제품군은 컴퓨팅 및 스토리지 리소스의 초분리 및 풀링을 가능하게 하여 차세대 데이터 센터를 위한 대규모로 확장 가능한 고성능 컴포저블 인프라를 제공합니다!
클러스터를 구성하는 요소
FSC™는 1600개 이상의 Fungible FSXNUMX 스토리지 대상 노드와 XNUMX개의 Fungible Composer 노드로 구성된 클러스터로 구성됩니다. Fungible Composer 소프트웨어는 Fungible Storage Cluster를 구성, 관리, 오케스트레이션, 제어 및 배포하는 중앙 집중식 관리 솔루션인 컨트롤 플레인을 관리합니다. Composer 노드는 스토리지, 네트워크 관리, 원격 측정, 로그 수집을 위한 노드 관리, Fungible Composer가 제공하는 서비스에 대한 외부 액세스를 제공하는 API 게이트웨이와 같은 서비스를 제공합니다.
Fungible Storage Cluster는 높은 수준의 애플리케이션에 완전히 투명한 고성능, 저지연 NVMe/TCP 분리 스토리지 솔루션을 제공합니다. 각 FS1600은 최대 24개의 U.2 NVMe/TCP SSD를 지원하며 성능은 최소 70TB에서 다중 PB까지 선형적으로 확장됩니다.
고객 사례
Hyper Disaggregation을 위한 클라우드 네이티브 스토리지: FSC는 클라우드 공급자에게 기존 스토리지에 대한 대안을 제공합니다. 스토리지를 분리함으로써 FSC는 컴퓨팅 및 스토리지의 독립적인 확장, 활용도 증가, 서버 SKU 감소, 관리 복잡성 감소 및 민첩성 향상을 가능하게 합니다.
인공 지능/머신 러닝: 최신 AI/ML 워크로드는 일반적으로 성능, 짧은 대기 시간 및 대용량 측면에서 대규모 병렬 처리가 필요합니다. 확장성이 뛰어난 병렬 파일 시스템과 결합된 FSC는 스토리지 병목 현상을 제거하여 이러한 최신 워크로드에 대해 전례 없는 성능, 대기 시간 및 효율성을 달성합니다.
클라우드 네이티브 고성능 데이터베이스: 오늘날의 많은 고성능 스케일아웃 데이터베이스는 대기 시간 요구 사항을 충족하기 위해 DAS를 배포합니다. 이러한 데이터베이스는 일반적으로 복제본 세트 또는 기본-보조 구성과 같은 클러스터된 중복 체계를 통해 내구성을 제공합니다. 서버에 오류가 발생하면 데이터는 다른 서버에 보존됩니다. FSC는 DAS와 같은 대기 시간을 유지하면서 향상된 스토리지 활용도와 클러스터 중복성을 제공하지만 용량 오버헤드는 낮습니다.
간소화된 IT 관리
FS1600 및 대체 가능한 DPU와 함께 제공되는 모든 성능 이점 외에도 단순화된 관리 접근 방식도 있습니다. Fungible은 단일 창을 통해 다중 테넌트의 보안 데이터 센터를 위한 관리 도구를 제공합니다. Fungible Composer 대시보드는 IT 관리자의 하루를 보다 생산적으로 만들고 일상적인 데이터 센터 기능을 효과적으로 관리하는 데 필요한 정보를 제공합니다.
대체 가능한 작곡가
Fungible Composer 대시보드는 추적, 관리, 구성 및 성능 모니터링을 위한 많은 세부 정보와 함께 사용이 간편합니다. 상단 탭은 연결된 시스템을 나타내며 클러스터 세부 정보, IOPS, 스토리지 세부 정보 및 주의가 필요한 모든 경보를 전체 표시합니다.
디스플레이 왼쪽에 있는 아이콘을 통해 특정 관리 도구에 즉시 액세스할 수 있습니다.
대체 가능한 장치를 배포할 때 제공된 세부 정보에 따라 호스트 테이블은 관리자에게 특정 호스트로 드릴다운할 수 있는 옵션과 함께 연결된 호스트에 대한 빠른 보기를 제공합니다.
성능 데이터의 경우 분석 아이콘을 선택하면 화면에 클러스터 성능에 대한 세부 정보가 표시되어 IOPS, 대역폭 및 대기 시간을 빠르게 확인할 수 있습니다.
볼륨 세부 정보는 각 볼륨의 상태에 대한 빠른 개요를 제공합니다. 여기에서 개별 볼륨으로 드릴다운하여 자세한 내용을 볼 수 있습니다.
배포 세부정보
대체 가능한 FSC1 1600개
- 8GbE 연결 100개
- 24 x 3.84TB NVME 장치
Dell R4xd 740개
- 대체 가능 FC1 200개
- 1GbE 연결 100개
- 1 x NVIDIA ConnectX-5
- 1GbE 연결 100개
- 2 x 인텔 제온 골드 6130 CPU @ 2.10GHz
- 1 256GB 드램
볼륨
- 총 192개의 100G RAW 볼륨
- 호스트당 16K RAW 볼륨 4개
- 호스트당 16K RAW 볼륨 8개
- 호스트당 16K RAW 볼륨 16개
테스트 프로세스
테스트 준비에는 테스트 워크로드를 시작하기 전에 채우기 위한 쓰기 워크로드가 있는 모든 볼륨의 사전 조정이 포함되었습니다. 볼륨은 적용된 워크로드의 블록 크기에 맞게 크기가 조정되었습니다. 테스트를 위해 4K 랜덤, 8K 랜덤 및 16K 순차 워크로드에 각각 4K, 8K 및 64K 볼륨이 사용되었습니다. 우리는 NVMe over TCP 프로토콜을 활용했으며 단일 노드로 스토리지를 보호 체계 없이 테스트했습니다.
대체 가능한 DPU 또는 100GbE NIC 간의 각 FIO 반복은 유사한 대기 시간 프로필을 제공하도록 균형을 맞췄습니다. 그런 다음 100GbE NIC 워크로드가 증가하여 더 높은 성능을 발휘하여 더 많은 대기 시간과 CPU 사용률을 얻었습니다.
초기 테스트 단계에서 FIO 작업은 카드가 설치된 NUMA 노드에 연결되었습니다. DPU 또는 NIC는 교체되었고 각 테스트 사이에 동일한 PCIe 슬롯에 위치했습니다. 서버 수준에서 서버 BIOS 프로필을 성능으로 설정하는 것 외에 특별한 조정이 필요하지 않았습니다. 각 loadgen에 대해 Ubuntu 20.04.2 Live Server를 설치했습니다.
대체 가능한 FS1600 요약 성능 결과
대체 가능한 FC200 IOPS
작업량 | 호스트 1 | 호스트 2 | 호스트 3 | 호스트 4 |
4k 읽기 | 2019k | 2015k | 2016k | 2012k |
4k 쓰기 | 2244k | 2020k | 2280k | 2203k |
64 읽음 | 167k | 166k | 166k | 166k |
64k 쓰기 | 161k | 168k | 164k | 186k |
8k 70r/30w | 1118k / 479k | 1105k / 474k | 1075k / 461k | 1117k / 479k |
대체 가능한 FC200 대역폭
작업량 | 호스트 1 | 호스트 2 | 호스트 3 | 호스트 4 |
4k 읽기 | 7886MiB/초 | 7871MiB/초 | 7873MiB/초 | 7858MiB/초 |
4k 쓰기 | 8766MiB/초 | 7890MiB/초 | 8905MiB/초 | 8606MiB/초 |
64 읽음 | 9.80GiB/초 | 10.1GiB/초 | 10.2GiB/초 | 10.1GiB/초 |
64k 쓰기 | 8732MiB/초 | 10.2GiB/초 | 11.3GiB/초 | 11.4GiB/초 |
8k 70r/30w | 8732MiB/3743MiB/s | 8632MiB/3699MiB/초 | 8395MiB/3598MiB/초 | 8729MiB/3741MiB/s |
100GbE NIC IOPS
작업량 | 호스트 1 | 호스트 1 램핑됨 | 호스트 2 | 호스트 3 | 호스트 4 |
4k 읽기 | 980k | 2019k | 1108k | 1102k | 1120k |
4k 쓰기 | 968k | 2776k | 494k | 1025k | 1011k |
64 읽음 | 140k | 118k | 125k | 141k | 140k |
64k 쓰기 | 72.5k | 179k | 40.1k | 100k | 47.0k |
8k 70r/30w | 498k / 213k | 1147k / 491k | 597k / 256k | 567k / 243k | 595k / 255k |
100GbE NIC 대역폭
작업량 | 호스트 1 | 호스트 1 램핑됨 | 호스트 2 | 호스트 3 | 호스트 4 |
4K 읽기 |
3828MiB/초 | 7887MiB/초 | 4330MiB/초 | 4303MiB/초 | 4374MiB/초 |
4K 쓰기 |
3783MiB/초 | 10.6GiB/초 | 1931MiB/초 | 4005MiB/초 | 3950MiB/초 |
64K 읽기 | 8761MiB/초 | 7269MiB/초 | 7804MiB/초 | 8832MiB/초 | 8753MiB/초 |
64K 쓰기 |
4529MiB/초 | 10.9GiB/초 | 2505MiB/초 | 6251MiB/초 | 3000MiB/초 |
8K 70R/30W | 3889MiB/1667MiB/초 | 8958MiB/3839MiB/초 | 4663MiB/1998MiB/초 | 4427MiB/1897MiB/초 | 4646MiB/1991MiB/초 |
The 대체 가능한 FS1600 연기자입니다
우리는 Fungible FS1600이 빠르다는 것을 이 검토에 포함시켰습니다. 그것은 의심의 여지가 없었다. DPU 및 NIC를 포함하여 각 호스트의 단일 카드가 포화 상태였지만 어레이에는 여전히 성능이 남아 있었습니다. 주요 초점은 유사한 테스트 시나리오에서 동일한 스토리지 어레이를 활용하는 NVMe/TCP 워크로드에 대해 NIC와 DPU를 비교하는 방법이었습니다. DPU는 스토리지 시장에 엄청난 이점을 가져왔습니다. CPU에서 활동을 오프로드하여 해당 I/O 또는 대역폭을 사용하는 애플리케이션 워크로드와 같은 다른 작업을 처리할 수 있습니다. 단일 호스트로 초점을 좁히면 이러한 이점을 볼 수 있습니다.
대체 가능한 DPU
즉시 각 워크로드의 평균 대기 시간을 비슷하게 유지하면 DPU가 NIC보다 대략 두 배의 성능을 구동할 수 있음을 알 수 있습니다. 여기에서 평균 대기 시간이 2.02ms인 대체 가능한 DPU에서 4M IOPS 0.474K 임의 읽기를 측정했습니다. 이 워크로드 동안 실시간 CPU 사용량을 살펴보면 워크로드가 FIO 워크로드에 지정된 CPU 코어에 포함되어 있음을 알 수 있습니다.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=5 –numjobs=12 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 -randrepeat=XNUMX
100GbE NIC
다음으로 평균 대기 시간이 100ms인 980k IOPS를 구동할 수 있는 0.39GbE NIC로 이동했습니다. 대기 시간을 확인하기 위해 DPU에서 IO 깊이와 작업 수를 줄였지만 CPU 사용량을 보면 DPU의 이점이 어디에 있는지 빠르게 알 수 있습니다. FIO 작업에서 NIC에 동일한 CPU 코어가 할당된 동안 , 훨씬 더 광범위한 시스템 활용도를 가졌습니다. 프로덕션 서버의 백엔드 프로세스(NIC, 어댑터 등)에 활용되는 CPU와 애플리케이션 워크로드와 같은 프런트 엔드 프로세스 사이에는 트레이드 오프가 있습니다. 여기에서 DPU가 내부화되는 동안 NIC 드라이버가 CPU 주기를 소비하는 것을 볼 수 있습니다.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=4 –numjobs=6 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 -randrepeat=XNUMX
100GbE NIC 램핑
마지막으로 우리는 조정된 100GbE NIC 워크로드로 이동하여 DPU와 동일한 성능 수준인 약 2.02만 IOPS를 얻을 수 있었습니다. 그러나 더 빠른 속도의 비용은 대기 시간이며, 이는 2.6ms 및 더 높은 피크 대기 시간으로 크게 증가했습니다. 이는 iodepth를 4에서 16으로, 작업 수를 6에서 20으로 조정한 것입니다. 증가된 대기 시간에 초점이 맞춰져 있지만 CPU 사용량을 살펴보면 거의 모든 시스템 리소스가 다른 프로세스에 많은 것을 남기지 않고 I/O 활동. 서버 배포를 보다 조밀하고 효율적으로 수행하려는 기업의 경우 모든 I/O가 동일하게 생성되는 것은 아니며 DPU가 스토리지 시장을 빠르게 변화시키고 있음을 쉽게 알 수 있습니다.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=16 –numjobs=20 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=분할 –cpus_allowed=14-63 –randrepeat= 0
최종 단어
현재 몇 주 동안 Fungible FS1600 및 해당 DPU와 함께 작업해 왔습니다. 어레이 자체에는 멋진 케이블 연결이나 변경이 필요하지 않지만 DPU의 영향을 깊이 이해하기 위해 철저한 분석을 원했습니다. DPU 자체가 완전히 새로운 것은 아니지만 마침내 과학 프로젝트뿐만 아니라 엔터프라이즈급 솔루션에서 상용화되고 있습니다. DPU 구현은 모두 동일하지 않으므로 설계 결정에서 인프라 및 성능 영향을 이해하는 것이 중요합니다.
이 DPU 세계에서 Fungible은 매우 독특합니다. 그들은 회사가 2015년에 다시 시작했을 때 맞춤형 솔루션을 추구했으며 2016년 말에 회사를 구축하기 위해 상당한 현금을 확보했습니다. 이것은 대략 Mellanox가 BlueField라고 하는 DPU의 첫 번째 버전을 발표했을 때였습니다. Fungible이 BlueField를 채택했다면 잘했을 것이라고 주장할 수 있지만, 자체 방식을 사용하면 실질적인 기술과 리더십 이점을 얻을 수 있습니다. Fungible은 스택을 완전히 제어할 수 있으며 클라이언트와 대상 모두에서 DPU를 쉽게 활용할 수 있습니다. 아니면 결정은 고객에게 있습니다. 그러나 테스트에서 우리는 Fungible을 사용하여 엔드 투 엔드로 진행하는 데 상당한 이점이 있음을 확인했습니다.
스토리지 어레이 및 호스트에서 활용되는 DPU와 함께 제공되는 대체 가능은 성능 측면에서 큰 이점을 제공하는 그림을 완성합니다. DPU는 그렇지 않으면 시스템 프로세서에 할당되는 리소스를 오프로드하므로 방정식의 양쪽에서 사용할 때 흥미로운 콤보를 제공합니다. 기존 NIC 대신 Fungible FC200을 활용할 수 있을 때 I/O 속도와 CPU 사용량이 크게 향상되는 것을 볼 수 있습니다. 4K 임의 읽기 전송만 보면 FC200은 대기 시간 2ms에서 0.474M IOPS 이상을 구동할 수 있는 반면 NIC는 1ms에서 약 0.39M IOPS를 수행할 수 있습니다. 2M IOPS를 구동하기 위해 NIC를 증가시키는 것은 가능했지만 대기 시간과 시스템 리소스 비용이 많이 들었습니다.
대체 가능한 FC200 DPU
클래스로서의 DPU는 플래시 스토리지에서 사용할 수 있는 기본 성능을 잠금 해제할 때 엄청난 잠재력을 가지고 있습니다. 이것은 오늘날 이미 사실이지만, Gen5 SSD 및 더 빠른 상호 연결과 같은 기술이 시장에 출시됨에 따라 수학은 DPU에 더욱 유리해집니다. PCIe 레인을 관리하기 위해 x86 프리미엄을 지불하는 것은 이러한 구성 요소를 활용할 수 있는 애플리케이션과 레거시 아키텍처가 확장 가능하지 않을 때 의미가 없습니다.
Fungible은 FS1600 스토리지 노드 및 가속기 카드와 함께 강력한 하드웨어 및 소프트웨어를 보유하고 있습니다. 그들은 또한 최근에 목표를 세웠습니다. GPU 분해, 고객에게 HPC 및 AI 워크로드를 위한 보다 완전한 스택을 제공합니다. 빠르게 부상하는 DPU 공간에는 여러 승자가 있을 것이지만 Fungible은 확실히 주목해야 할 것입니다. 스토리지를 최대한 활용해야 하는 조직은 확실히 FS1600을 선택해야 합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 페이스북 | 틱톡 서비스 | RSS 피드