搭著 NVDA 一飛衝天的真.伺服器廠 - SMCI
全球唯一營收跟著 NVDA 同步成長的真.伺服器廠;不僅關係好,設計能力也強 (本文討論隨插即用的解決方案 - 機櫃級 + 水冷),天下武功,唯快不破,快速出貨以滿足資料中心客戶的需求,除協助降低營運成本外,讓客戶快速推出新產品,可搶市占,還可維持競爭力,客戶成長就是自己成長,透過研發能力將客戶的需求,一個一個加進來,提供最好的解決方案
【看圖說故事】
SMCI 的相關資料不好找,分析師多半稱『與 NVDA 關係良好』是主要的競爭優勢,因為全市場都拿不到貨 (H100) ,僅 SMCI 拿的到貨;
兩間公司都是在 1993 年成立的,矽谷總部相距只有 15 分鐘車程,聽說 NVDA 如果有新的 GPU 要做測試,都會找 SMCI 幫忙,這樣的關係算好嗎?
不過,要說到關係,同樣有台灣關系的廣達規模更大,技嘉也不小,理論上也是應該拿的到貨,但實際上只有 SMCI 營收是跟著 NVDA 在成長,只有他是真.AI 伺服器廠?
巴克萊認為 SMCI 在矽谷的總部也帶來優勢 - 和 NVDA、AMD 與 Intel 建立良好關係 ,估算其在矽谷的市佔率高達 25%,全球市佔率僅 7% ,還有很大的向上成長空間,尤其是月產能提早自 4000 台提升至 5000台,有機會帶動營收成長 (同時新廠在初期可能會影響毛利);
不過,就目前來看,SMCI 與 NVDA的股價也同時處於高檔震盪,出現岌岌可危的跡象,兩間公司的高層都在高檔賣股,SMCI 甚至還有增資,都讓股價震盪向下的風險增加 (但其實也只跌了一下下);
【看圖說故事】
SMCI 假設(Assumptions)客戶有客製化需求,因此聚焦設計能力,但營收成長力度似乎不強;
所幸,受惠資料中心與伺服器的複雜度增加,尤其 AI 興起更是進一步複雜化資料中心的設計,帶動客製化需求,為其假設奠定基礎;
過往的堅持、累積的研發能力,讓 SMCI 設計出通用型機櫃系統,不僅隨插即用,可以交貨快速,還能透過積木式的組合來滿足客製化需求,並以最快的速度推出支援新 GPU ( H100、H200 與 GH200 等的伺服器;
接著,為了滿足客製化需求(A),SMCI 透過一站式服務(策略,Strategy),從初始叢集設計、組裝和配置 (結合散熱系統、產能)、測試和驗證、快速交貨和部署,一路到支援服務,成為完整的解決方案;
天下武功,唯快不破,盡快出貨滿足資料中心客戶的需求,協助客戶降低營運成本外,還讓客戶盡快推出新產品搶市,以維持競爭力,幫助客戶成長的商業模式(Businesses Model),讓他不只是靠著管理階層(Management)而成長;
因此,他不只是專注於單一產品,而是專注於提供最好的解決方案,透過研發能力將客戶的需求,一個一個加進來,成為最好的解決方案;
最全面的產品組合 + 機櫃級:
1U、2U、4U、5U 和 8U 尺寸,支援 1 - 10 個 GPU 單插槽和雙插槽機架式系統;
典型的伺服器銷售,資料中心客戶須自己在機房中組裝、安裝一堆設備跟電線;
隨插即用的機櫃級解決方案,可縮短交貨時間,部屬時間從數年縮短至數周:
製造:馬來西亞廠提早量產,全球月產能已達 5000 台;
設計:具客製化設計能力,可協助客戶設計伺服器、機櫃、叢集與超級電腦;
整合:
由同一組工程人員負責整合電力、連網與散熱,並進行測試,同時進行測試,以確保整合品質與硬體的可靠度;
伺服器以積木的形式被內建於機櫃中,大幅減少在機房的組裝時間,減少電纜的連接,就可以減少功耗,以降低營運成本,同時具備擴展性,可依據需求增加或刪除伺服器,並將數個 CPU或數個記憶體組合成單一的資源共用池,集中管理和分配處理可再進一步提高利用率與性能;
將可擴展的通用系統與液冷系統整合在一起,將之模組化後,可在數周內將機櫃交貨,讓客戶可以隨插即用;
【看圖說故事】SMCI 所提供的 NVIDIA MGX,是模組化伺服器平台,為 4U 通用型 GPU 系統,可客制化,能夠放進去 4 或 8 顆 GPU;
由上圖可以看到 - 空間相對小,但卻可塞進一樣多的GPU,因此需要更好的散熱功能;若是放進 8 顆GPU,散熱的難度將再大幅加,因此需要使用液冷系統;
SMCI 專注於為客戶打造更好的解決方案,因此如果客戶需要液冷系統,SMCI 就會開始著手進行,除了最佳配置、最低功耗外,再加上最佳冷卻,真正為客戶提供整體解決方案;
機櫃級(Rack Scale) + 液冷解決(liquid cooling)方案:將機櫃與液冷整合,可將 PUE 降至接近 1.02 (一般氣冷資料中心的 PUE值 約為 1.65),再為雲端客戶節省高達百億美元的能源成本
SMCI 最多可以有 88 個伺服器節點;每個節點可通常包含1個或數個處理器、記憶體、硬碟和網絡連接,可獨立運行,也可與其他節點形成一個群集,並一起運行。
大幅度降低對傳統冷卻方法的需求,而且資料中心客戶在安裝好這些伺服器後,不需要再找另一間廠商來安裝散熱裝置,SMCI 自己一組人馬可負責安裝完成,尤其機櫃本身的設計已為液冷裝置準備好了;
水冷系統的基本設備:
冷卻液體 (Coolants):液體比空氣的熱傳導率(Thermal Conductivity)高,換成液體來散熱,散熱能力就可以增加很多;在設計液冷解決方案,個別廠商都有不同的優勢;不管是哪個液冷解決方案,都需要冷卻液體; 在選擇合適的冷卻液時,需考慮:
冷卻液價格差異大:成本從 10 美元/公斤到 100 美元/公斤不等
維護複雜:油或碳氫化合物冷卻劑常含雜質,或腐蝕主機板和管道。
前期成本:浸入式冷卻罐的成本約為 4000 美元,每罐冷卻液的成本約為 7000 美元:
3M 宣布將在 2025 年底前停止生產所有的含氟聚合物、含氟液體和基於PFAS (polyfluoroalkyl substances)的添加劑產品,2025 年底前停止在其所有產品中使用 PFAS,
停產主要是因為監管日益加強,而市場對替代選擇的需求正不斷增長;
主要品牌為:Fluorinert 和 Novec
其氟化學品部門下設比利時和美國兩處工廠;比利時工廠主要生產全氟烷烴,用於半導體設備冷卻、資料中心浸沒式冷卻以及海外軍工絕緣測試;冷卻劑產量佔全球總產量的 80%
PFAS - 全氟烷基和多氟烷基物質通常被俗稱為“永久化學品”,因為它們需要很長時間才能在自然環境中被分解;
PFAS 具有極其穩定的化學結搆和獨特的化學特性,兼具防水性及防油性,長久以來都極為受到製造商的青睞,被廣泛應用於半導體、儲能電站和資料中心。
自 20 世紀 40 年代以來,PFAS已在全球多個行業製造和使用,如去汙劑和防水劑、油漆、清潔產品、食品包裝以及消防泡沫等。
在半導體製造過程中,所需的冷卻劑(電子級氟化液)也屬於PFAS產品,它被廣泛用於半導體蝕刻設備、離子注入設備、化學氣相沉積(CVD)設備的恒溫冷卻。
3M在全球半導體冷卻劑市場居於壟斷地位,其 PFAS 相關產品的年營收約為 13 億美元;
管線與連接器:將冷卻液從伺服器連接至分流管,需具有防漏的連接器;
洩漏問題:因具有多個連接點的管道,加上持續的振動,以及熱脹冷縮,而有可能開始洩漏;SMCI 的 液冷機架解決方案提供防漏連接器和漏液檢測,必須確保液體不會接觸到不應接觸的電子表面;
冷卻劑分配裝置 (Cooling Distribution Unit,CDU) :配管設計,包含泵送系統,推動液體流動,負責冷卻液的補充或是再冷卻;
可在整個伺服器機架中循環流動冷卻液,可將冷卻劑循環至冷卻板,冷卻 CPU 和 GPU;
可以液體對液體(Liquid-to-liquid),也可以液體對空氣(Liquid-to-air,用冷氣將冷卻液降溫),但是都需要額外的空間;
冷卻劑分配歧管 (Cooling Distribution Manifold,CDM) :能將冷卻液供應給每個伺服器及返回路徑供應冷卻劑至每個伺服器,並將較熱的冷卻劑收集回 CDU 的分配歧管。
垂直 – 垂直歧管放置在機架後部,並透過軟管直接連接到 CDU。它們將冷卻劑輸送至進水管和出水管位於機架後部的系統上的冷卻板。
水平 – 水平歧管放置在機架前部,位於 1U 機架安裝空間中。它們將機架後部的垂直歧管連接到進水管和出水管位於機架前部的系統上的冷卻板。
冷卻板 (Cold Plate):可依需求訂製,並直接附著在 CPU 或 GPU上 (因此又稱為 Direct to Chip,簡稱 DTC );因為不須使用冰水空調主機及風扇,就直接省 40% - 60% 的電力;
流動冷卻劑通過其微型通道,非常有效地冷卻晶片;旨在減少晶片上的熱點並達到極低的熱阻。
利用導管內的液體去針對 CPU 或 GPU 進行散熱;因此只能冷卻有限數量的主要組件,例如晶片組和 GPU,而非整個主機板。
若沒有在初期就做好配置設計,後期則需改變主機與機櫃佈署,才能將導管線與冷水板連接到主機發熱組件,導走其產生的熱量,結構複雜、又佔空間,將導致投資成本升高。
【看圖說故事】
提高資料中心運算密度與減少耗電,已是半導體及雲端巨頭的成本決戰場;
土地資源有限,能夠在有限空間內塞進最多的伺服器,可提升資料中心的運算密度;但是,過往伺服器只有 1 CPU + 1 GPU,現在變成 2 CPU + 數百顆的 GPU,耗掉的能量與製造的熱量成等比級數的成長;
過去的資料中心多使用氣冷 (伺服器吹冷氣);但因目前的耗能太高,改為液冷的的好處是,若不用空調等氣冷方案,不僅省去大型風扇和散熱器等冷卻設備的空間,還可再放更多的CPU和GPU;
不僅需要有設計機櫃的能力以滿足客製化需求,還要幫客戶減少耗電與提升散熱,所以最好也同時提供散熱解決方案;
這些優勢似乎看起來沒甚麼,但整合起來可為客戶省下時間;因為現在時間不只是金錢,如果可以讓 AI 產品盡快上市,也是一種競爭優勢,同時還可以避免被競爭對手搶占先機,不然為什麼搶 H100 ?
目前市場積極想要加快 AI 的訓練、推理的前提下,SMCI 能夠拿到 NVDA 的GPU、機櫃可以隨到隨用,並附上水冷系統,可為資料中心的客戶省下時間與金錢,是不是就比其他伺服器廠商具有優勢?
水冷解決方案除了水冷板外,還有浸沒式(Immersion Cooling) (參考資料 )
水冷板 (direct-to-chip) 的缺點:需要預先評估客製化冷水板製作,並需改變主機與機櫃佈署,才能將導管線與冷水板連接到發熱元件,需佔機房內外部空間,還得變動機櫃與冷熱水導管佈署,因此導致投資成本升高。
浸入式 (Immersion Cooling)的缺點:雖具有出色的散熱性能,pPUE 低至 1.01,但是伺服器直接浸入液體冷卻劑中,需要對現有伺服器主機板進行重大修改,還要考慮伺服器和冷卻液之間的材料相容性等因素,市場缺乏足夠的專業知識和經驗來實施和管理該技術,都增加初期實施過程的複雜性和額外成本,持續的維護和營運成本也可能更高,但散熱效率高,從長遠來看則相對具有成本效益。
預估 2025 年液冷伺服器將占整體資料中心的散熱方案 24%,液冷又可細分為水冷板及浸沒式;目前的液冷主流為水冷板,因為技術限制,市場普遍的共識是浸沒式可能還要過一陣子才能追上來,但整體液冷解決方案的成長率是相當高的,未來幾年至少都在 50%左右。
浸沒式 (Immersion Cooling):將伺服器元件浸入不導電液體中,散熱效果更好;未來若 GPU 越來越熱,也將成為不得不選擇的方案;提供高且均勻分佈的冷卻;但將伺服器浸入水箱中的過程可能很麻煩,並且需要對現有的基於機架的資料中心進行重大改造。
單相浸沒式:不導電液體主要為油;利用對流帶走熱量,從而減輕監管風險
兩相浸沒式:不導電液體主要為氟化物(有毒),具有更高的冷卻性能,但容易受到 PFAS 等監管風險的影響,允許液體在系統中蒸發和凝結。與單相冷卻不同,兩相冷板不依賴泵浦和 CDU 進行循環,而是使用溫度控制的自我調節,由於沒有移動部件,因此更容易維護。
【看圖說故事】由一個實驗性質的測試活動看到 SMCI 具備設計能力;
根據官方網站顯示:
SMCI (提供 BigTwin) 與 3M (提供3M™ Fluorinert™ 電子液 FC-40)、INTC (提供晶片)、Kaori (提供浸沒式冷卻槽)和三星(提供 DRAM 和固態硬碟) 合作實驗一個單相浸沒式液冷系統;
概念驗證:用具有較少核心數的晶片,去驅動相同級別的計算性能,可以節省軟體許可的相關費用;
測試結果:除功耗顯著降低之外,額外好處是可以節省運行時許可的成本(licensing fees.),因為利用頻率更高、核心數較低的處理器,仍可以實現與頻率較低、核心數較高的處理器相似的性能水平;
以 GIGABYTE 作為對比,技嘉有自主研發直接液體冷卻(Direct Liquid Cooling, DLC)和 單相浸沒式冷卻等解決方案 (Single-Phase Immersion Cooling),也有跟其他廠商合作:
水冷板 (Cold Plate) 解決方案:與加拿大公司 - CoolIT Systems 合作;(CoolIT 曾與英特爾合作開發專 至強 CPU 量身定制的 DTC 解決方案 )
單相浸沒式液冷解決方案 (Single-Phase Immersion Cooling):與美國公司 - GRC (Green Revolution Cooling) 合作;
兩相浸沒式冷卻運算方案 (Two-Phase Immersion Cooling):與香港公司 - LiquidStack 和 3M 合作;
與美國同業的比較;
伺服器佔比:
SMCI:超過 90% 營收與伺服器相關;FY23 營收為 71 億 (截至 2023/6/30);
VRT:逾 75% 營收與資料中心相關;FY23 營收估為 69 億 (截至 2023/12/31);
營運展望:
SMCI:預估 FY24 營收將為 100 - 110 億美元;
VRT: 預估 FY28 營收將為 108 億美元;
營業利益率
SMCI:90% 營收與伺服器機架相關;營業利益率約 12% 上下;
VRT: 33% 營收來自於電力管理 (power management),30% 來自於 熱管理 (thermal management),調整後營業利益率在 FY22 不到 10%,FY23 預估將到 15%,長期展望為 20% 以上;
【看圖說故事】幾個觀察重點:
成長率:相對於 VRT,SMCI 的成長率非常快;兩者在 2022 年的營收規模相當,但受惠於 AI 伺服器的營收占比多寡的關係,所以 SMCI 可以在 FY24 就可以達到 100 億美元的規模,而 VRT 則要等到 FY28;
獲利能力:VRT 有 6 成營收比重來自於電力與散熱系統,這兩項業務可能是讓成長率相對較低的關係,但也可以推估出這些業務的營業利益率相對較高,未來幾年有可能來到 20% 以上,是 SMCI 目前的兩倍;不過,若是有越來越多客戶採用水冷系統,應該也有機會提升 SMCI 的獲利率;
另一方面,市場普遍擔心 AI 伺服器與新工廠上線,會影響到 SMCI 的毛利率與獲利率,但 SMCI 表示,目前相關產品離被商品化(Commoditization) 還很遠,競爭對手還不是很多,因此目前的目標是盡量擴大市佔,預估很快就可以成為市場上最大的玩家,到時候就可以想辦法來提升獲利率,這基本上跟 NVDA 目前的作法雷同;
其他整理資料:SMCI 的液冷系統的優勢,可以參考這個影片
散熱原理
冷卻劑分配歧管 (CDM):供應冷卻劑至每個伺服器,並將較熱的冷卻劑收集回 CDU 的分配管。
自有品牌的冷卻分配單元(Cooling Distribution Unit,CDU) - 背面
自有品牌的冷卻分配單元(Cooling Distribution Unit,CDU) - 正面
自有品牌冷水版
太厲害,我看您的文章後幾天 $SMCI就大漲
受益良多, 長知識了, 當然股價也因此翻幾翻