AMD EPYC 9754S 專為禁用 SMT 的 HPC 工作負載而設計,提供 128 個核心和 128 個線程,預設 TDP 為 360W。
去年,AMD 透過第四代 EPYC 擴展了其伺服器 CPU 產品線。雖然 4 核心、128 線程 EPYC 256 佔據了榜首,但在 SKU 矩陣中,AMD EPYC 9754S 緊隨其後。這兩種晶片之間的差異很簡單,但也很顯著。 9754S 禁用了同時多執行緒 (SMT)。這意味著 9754S 提供與 9754 相同的 128 個核心,但在禁用 SMT 的情況下,只有 9754 個線程,而線程數為 128 個。這一更改為已經禁用 SMT 的客戶帶來了很大的折扣。
型號 | 核心 | 最大線程數 | 默認 TDP | 基頻(GHz) | 提升頻率。 (GHz) | 三級緩存(MB) |
---|---|---|---|---|---|---|
9754 | 128 | 256 | 360W | 2.25 | 3.10 | 256 |
9754S | 128 | 128 | 360W | 2.25 | 3.10 | 256 |
9734 | 112 | 224 | 320W | 2.2 | 3.0 | 256 |
什麼是 AMD SMT?9754S 為何存在?
透過 SMT,單一 EPYC CPU 核心可以同時處理兩個線程,這可以更有效地利用處理器的資源。當一個執行緒正在等待從記憶體載入資料或處於空閒狀態時,另一個執行緒可以執行指令。這意味著核心空閒時間更少,從而可能提高效能。在虛擬化和渲染等用例中尤其如此。
停用 SMT 可以讓製造商將這些晶片作為低階產品銷售,確保它們仍然符合特定的性能和穩定性標準。禁用 SMT 的 CPU 可能會受到分級流程、市場細分策略以及滿足特定性能或效率需求的願望的影響,這展示了製造商在產品規劃和定位中採取的細緻入微的方法。
也就是說,並非所有工作負載都能受益於 SMT,而且很多時候,AMD 伺服器可能在 BIOS 中停用了 SMT。雖然這可能是個有效的調整,但這也帶來了另一個重要的問題。禁用 SMT 的 9754S 晶片比 9754 稍微便宜一些。無論哪種情況,單線程應用程式、計算工作負載以及 CPU 延遲至關重要的任何用例都可以從禁用 SMT 中受益。
AMD EPYC 9754S 與 EPYC 9754 效能對比
我們想要進行兩個常規測試:y-cruncher 和 Cinebench 2024,看看使用和不使用 SMT 時我們會得到哪些效能差異。我們將 9754S 和 9754 進行了對比,同時在開啟和關閉 SMT 的情況下運行 9754,看看在沒有 SMT 的情況下 9754S 有什麼優勢。
測試平台及規格:
- 泰安運輸 HX TN85-B8261
- 512GB DDR5
- 在Windows Server 2022
Cinebench 2024
首先是 Cinebench 2024,在我們的非 S 型號上啟用了 SMT。在這裡我們可以看到我們處於運行之間的差異差異之內。
Cinebench 2024 CPU | 2 個 EPYC 9754S | 2 個霄龍 9754 |
---|---|---|
CPU 多核 | 2,682 | 2,587 |
CPU單核 | 68 | 69 |
MP比率 | 39.19x | 37.64x |
之所以選擇 y-cruncher,是因為程式的架構被定位為總體系統測試。透過執行適合系統記憶體的大量 Pi 計算,我們的目的是證明我們長期以來的直覺,即 SMT 會對 CPU 和記憶體限制工作負載產生負面影響。在深入了解這一切意味著什麼之前,讓我們先看看結果。
y-粉碎機 0.8.3
y-cruncher 0.8.3 總計算時間(以秒為單位) (越低越好) |
2 個 EPYC 9754S | 2x EPYC 9754(SMT 關閉) | 2x EPYC 9754(SMT 開啟) | 9754 SMT Off 性能提升 |
---|---|---|---|---|
1億 | 13.481 | 13.546 | 14.139 | 4.65% |
2.5億 | 23.818 | 24.144 | 28.111 | 15.27% |
5億 | 40.760 | 40.797 | 49.271 | 17.27% |
10億 | 77.409 | 77.959 | 95.420 | 18.88% |
25億 | 203.303 | 202.124 | 233.629 | 12.98% |
50億 | 475.557 | 476.949 | 520.349 | 8.61% |
100億 | 1,248.458 | 1,251.36 | 1,242.419 | -0.49% |
y-粉碎機 0.8.4
y-cruncher 0.8.4 總計算時間(以秒為單位) (越低越好) |
2 個 EPYC 9754S | 2x EPYC 9754(SMT 關閉) | 2x EPYC 9754(SMT 開啟) | 9754 SMT Off 性能提升 |
---|---|---|---|---|
1億 | 13.480 | 13.56 | 14.573 | 7.50% |
2.5億 | 23.680 | 23.501 | 28.649 | 17.34% |
5億 | 40.819 | 40.547 | 50.082 | 18.50% |
10億 | 78.523 | 77.466 | 93.842 | 16.32% |
25億 | 206.399 | 206.078 | 236.070 | 12.57% |
50億 | 483.797 | 482.79 | 521.867 | 7.29% |
100億 | 1,269.484 | 1,266.83 | 1,253.446 | -1.28% |
結果分析
深入探討 AMD SMT 的複雜性,科技界就其對系統效能的影響進行了一場引人注目的對話。從本質上講,SMT 對於那些追求增強效能的人來說似乎是一個簡單的選擇。該理論認為:如果啟用 SMT 可以實現理想的擴展,那麼為什麼不將其視為有益的架構選擇呢?
SMT 效率和核心架構之間的關係並不是非黑即白的。 SMT 擴展不佳並不一定表示其實施過程中存在缺陷。事實上,它可能暗示了一種強大的核心設計,幾乎沒有給 SMT 留下顯著差異的空間。這個悖論強調了一個重要的產業洞察力:處理器製造商不能聲稱 SMT 或類似技術具有一刀切的優勢。他們承認,雖然 SMT 在某些用例中可以擠出額外的效能,但在其他場景中並非沒有缺點。
透過高效能運算和超級運算任務的鏡頭,SMT 的限制變得更加明顯。雖然將每個核心的線程數加倍的想法聽起來很有希望,但現實並不類似於將核心加倍。在極端情況下,這可能會導致效能下降,因為執行緒會爭奪快取資源。儘管如此,對於大多數多線程應用程序,尤其是那些沒有緩存競爭的應用程序,SMT 提升了性能,主要在可以充分發揮其潛力的任務中表現出色。
關閉的思考
AMD SMT 對於企業中常見的各種工作負載非常有用。但並非所有工作負載都需要或受益於 SMT。透過我們的測試,我們展示了 AMD 如何利用製造過程中的變化來提供具有獨特價值主張的可靠產品。為需要純核心而無需 SMT 的特定類型工作負載設計平台的組織可以透過購買 AMD EPYC 9754S 來節省一點錢,該產品在出廠時就永久禁用了 SMT。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱