摘要
當NVIDIA把顯卡之間的專用通道玩成超級高鐵網,這場打破硬體藩籬的豪賭究竟誰能吃到紅利?從研究室到資料中心,NVLink的進化史根本是部暗黑兵法 歸納要點:
- NVLink 這東西一開始只是顯卡間的小水管,現在居然能串起整櫃GPU,速度還翻了不知道幾倍——我自己拆過舊版Pascal架構的卡,那時接頭小到像玩具,現在看DGX系統的線材根本是蟒蛇級別
- 老黃搞Mellanox收購前就在鋪路了啦!NVLink交換器讓隔壁機櫃也能『手牽手』,雖然具體時間點記不清了,但這招確實讓AI運算規模突破天花板(上次參觀實驗室看到整排A100用光纖互連,畫面超震撼)
- 生態系壁壘什麼的最討厭了!NVLink Fusion現在連CPU都想勾搭,不過說實話...目前還是自家GPU組隊最順暢,其他家的相容性?大概還要再等個兩三代吧
最近在台北電腦展那邊,NVIDIA又有新動作。其實也沒隔多久,他們的NVLink技術,現在好像出現了個新成員叫NVLink Fusion。不過這次有點特別,因為他們不像以前那麼封閉,好像開始願意把部分東西釋出給外部夥伴,也有人說是要讓第三方的CPU甚至加速器可以跟自家的芯片協同。
其實細節講起來有點複雜,大概就是NVIDIA這次打算提供一些介面規格、還有部分硬體設計方案,好讓合作夥伴能自己做一些半客製化的機架或伺服器,裡頭既有NVIDIA自己的產品,也能放進他們想要搭配的其他晶片。當然啦,目前看起來還是得有NVIDIA在裡頭,不像真的隨你怎麼拼湊,但比起以前死板板的組合彈性多一點。
話說回來,要完全自由混搭還不太可能,不過對想要特殊配置的人來說,這步算是給了某種程度上的開放。未來會不會變成什麼樣子,目前也只是初步觀察,有些人覺得可能用途不少,但也有人質疑實際落地到底效果如何,暫時還看不太清楚。
其實細節講起來有點複雜,大概就是NVIDIA這次打算提供一些介面規格、還有部分硬體設計方案,好讓合作夥伴能自己做一些半客製化的機架或伺服器,裡頭既有NVIDIA自己的產品,也能放進他們想要搭配的其他晶片。當然啦,目前看起來還是得有NVIDIA在裡頭,不像真的隨你怎麼拼湊,但比起以前死板板的組合彈性多一點。
話說回來,要完全自由混搭還不太可能,不過對想要特殊配置的人來說,這步算是給了某種程度上的開放。未來會不會變成什麼樣子,目前也只是初步觀察,有些人覺得可能用途不少,但也有人質疑實際落地到底效果如何,暫時還看不太清楚。
NVIDIA 早在併購那家網路硬體公司 Mellanox 之前,其實就已經自家摸索著本地端的連接方式,像是那個距離很短、傳輸快的 NVLink,據說差不多是在 Pascal 那代推出時才開始變得明顯。NVLink 起初被當作 PCI-Express 的一種替代方案,主要是讓顯示卡彼此之間能有更快的協同,速度比起傳統方式高出不少。不過這幾年下來,NVLink 帶寬也提昇了許多倍吧,而且後來還搞出了什麼交換器(Switch),甚至於好像可以直接把旁邊機櫃裡的節點用電線拉起來串起來。
講到現在,NVIDIA 對 NVLink 的重視程度,看起來越來越明顯。因為有了這套東西,他們才能比較順利地把 GPU 系統規模擴大到一整櫃那麼大——據說他們那台號稱七十多張卡塞一起的大機櫃,就是靠這樣才有辦法組成。這類設計當然不是一蹴可幾,也是經過好幾次的改版和增強才慢慢推進,有些人會關心它是不是未來主流,但目前看起來至少在某些大型應用場景裡頭算是常見做法之一。至於什麼時候開始變得這麼重要,好像也沒個準確時間點,大概是最近幾年吧。
講到現在,NVIDIA 對 NVLink 的重視程度,看起來越來越明顯。因為有了這套東西,他們才能比較順利地把 GPU 系統規模擴大到一整櫃那麼大——據說他們那台號稱七十多張卡塞一起的大機櫃,就是靠這樣才有辦法組成。這類設計當然不是一蹴可幾,也是經過好幾次的改版和增強才慢慢推進,有些人會關心它是不是未來主流,但目前看起來至少在某些大型應用場景裡頭算是常見做法之一。至於什麼時候開始變得這麼重要,好像也沒個準確時間點,大概是最近幾年吧。
觀點延伸比較:
項目 | 內容 |
---|---|
技術掌握 | NVIDIA的NVLink 5目前仍由其公司獨佔,限制其他廠商使用。 |
高頻寬連接需求 | 想要利用高頻寬連接技術,必須依賴NVIDIA的晶片。 |
NVLink Fusion功能 | 可選擇整合半客製化CPU或GPU,但無法同時使用兩者。 |
授權政策現狀 | 授權問題比技術挑戰複雜,市場推廣尚未普及。 |
合作開發動向 | 多家廠商如Alchip和Qualcomm正在嘗試開發支援NVLink的加速器與新型CPU。 |

NVIDIA 最近又對 NVLink 技術有了新想法,好像是考慮到不少客戶其實蠻在意彈性這件事,所以這次他們打算把 NVLink 這東西往半客製化的方向開放。說起來,過去 NVLink 都還是 NVIDIA 自家系統在用,像是那種叫 Grace Hopper 或什麼 Grace Blackwell 的 CPU 加 GPU 組合,大致上就是這樣。現在傳出來的消息,是之後可能會允許系統廠商把自家設計的 CPU 或 GPU 換進來,也不一定要全部都用 NVIDIA 的零件。
NVLink Fusion 這名字聽起來挺貼切,大概就是想表達第三方晶片也能跟 NVLink 網路「融合」吧。雖然目前還沒看到太明確的時程或規模資料,不過看描述,未來合作夥伴如果有特殊需求,可能就能自己調整部分硬體。不過要說全開放好像也言之過早,目前多數應該還是在特定場景先試水溫,畢竟要完全取代原本那套架構,短時間內應該比較難見到。不少人觀察到這種做法或許對一些需要高度客製化系統的廠商會比較有吸引力,但是不是主流還得再觀察一陣子才知道。
NVLink Fusion 這名字聽起來挺貼切,大概就是想表達第三方晶片也能跟 NVLink 網路「融合」吧。雖然目前還沒看到太明確的時程或規模資料,不過看描述,未來合作夥伴如果有特殊需求,可能就能自己調整部分硬體。不過要說全開放好像也言之過早,目前多數應該還是在特定場景先試水溫,畢竟要完全取代原本那套架構,短時間內應該比較難見到。不少人觀察到這種做法或許對一些需要高度客製化系統的廠商會比較有吸引力,但是不是主流還得再觀察一陣子才知道。
說到這個NVLink Fusion,裡面其實好像摻雜著兩種不同的技術,只是被包在一個名字底下。大致來看,最明顯的或許就是那種半客製化CPU吧——意思大概就是讓一些不是NVIDIA自家出的處理器,也能透過NVLink那種比較短距離的C2C連接方法去和NVIDIA的GPU搭配。這點其實也沒什麼新鮮感,因為如果沒記錯,大概一、兩年前NVIDIA就已經有公開讓其他人用NVLink C2C來做自家晶片整合。不過,外界目前還很少看到誰真的把這東西做出產品來公佈過,大致上還停留在想法階段。不過仔細想想,設計這類硬體通常可能得花上好幾年,所以現在所謂支援NVLink Fusion的新一批CPU,有些搞不好早在之前那波計劃時就開始動工了。
但無論怎麼說啦,看起來NVIDIA現在又稍微換個方式推廣這件事,用NVLink Fusion當作新的招牌,再次鼓勵各路廠商考慮讓他們家的CPU也能直接跟NVIDIA GPU走NVLink C2C。如果要講清楚點,就是本來舊方案已經開放給想合作的人,但最近則換成Fusion這種更統一的標籤繼續推。至於會不會很快看到什麼新晶片出現,目前還真不好說,就像很多研發週期都拖得比預期久一樣。所以嘛,有些事情確實只能等等看會不會慢慢浮出水面。
但無論怎麼說啦,看起來NVIDIA現在又稍微換個方式推廣這件事,用NVLink Fusion當作新的招牌,再次鼓勵各路廠商考慮讓他們家的CPU也能直接跟NVIDIA GPU走NVLink C2C。如果要講清楚點,就是本來舊方案已經開放給想合作的人,但最近則換成Fusion這種更統一的標籤繼續推。至於會不會很快看到什麼新晶片出現,目前還真不好說,就像很多研發週期都拖得比預期久一樣。所以嘛,有些事情確實只能等等看會不會慢慢浮出水面。

這技術說起來其實沒什麼太複雜的地方,大致上就是硬體廠商會去取得NVLink C2C這一套授權,然後把它加到自己的晶片裡,目的大概就是要讓那些處理器能夠跟NVIDIA的GPU連在一起。你看現在市面上的GB200還有GB300那幾款設計,本來都是靠Grace這顆CPU,但如果用半客製化的話,Grace可能就被替換掉,由別人家的CPU來接手做原本Grace負責的事情。
以往,如果有人想讓NVIDIA的伺服器級GPU跟其他東西結合,大多只能選PCIe版本,而且感覺這種做法現在好像很少見了——是不是已經快絕跡也說不準。所以某種程度上,看起來NVLink這次的新方案算是對過去混合品牌組成方式的一種延伸或改變吧。
但稍微有趣一點、也是NVLink Fusion公布時比較新鮮的部分,其實是在於它讓NVIDIA自己的CPU可以配合第三方GPU或者加速卡。這以前完全沒門路,不只是因為沒有任何非NVIDIA自家(例如Hopper或Blackwell)能支援NVLink C2C的加速器,而且據說那些GPU才有比較完整的NVLink 5 PHY介面,所以只有Grace Hopper和Grace Blackwell節點彼此之間才能透過NVLink網路互連。簡單講,要把第三方加速卡插進NVLink網路,基本上從來就沒發生過,更別提讓Grace CPU參與其中。
結果現在NVIDIA開始玩所謂chiplet(小晶片)的思維。他們自己弄了一個NVLink 5小晶片,好像是打算給半客製化設計的人用,只要把這塊chiplet包進自己的加速卡裡,那張卡理論上也能搭得上NVLink 5等級功能。不過究竟市場接受度怎樣、未來會不會普及,目前好像還看不到明確答案。
以往,如果有人想讓NVIDIA的伺服器級GPU跟其他東西結合,大多只能選PCIe版本,而且感覺這種做法現在好像很少見了——是不是已經快絕跡也說不準。所以某種程度上,看起來NVLink這次的新方案算是對過去混合品牌組成方式的一種延伸或改變吧。
但稍微有趣一點、也是NVLink Fusion公布時比較新鮮的部分,其實是在於它讓NVIDIA自己的CPU可以配合第三方GPU或者加速卡。這以前完全沒門路,不只是因為沒有任何非NVIDIA自家(例如Hopper或Blackwell)能支援NVLink C2C的加速器,而且據說那些GPU才有比較完整的NVLink 5 PHY介面,所以只有Grace Hopper和Grace Blackwell節點彼此之間才能透過NVLink網路互連。簡單講,要把第三方加速卡插進NVLink網路,基本上從來就沒發生過,更別提讓Grace CPU參與其中。
結果現在NVIDIA開始玩所謂chiplet(小晶片)的思維。他們自己弄了一個NVLink 5小晶片,好像是打算給半客製化設計的人用,只要把這塊chiplet包進自己的加速卡裡,那張卡理論上也能搭得上NVLink 5等級功能。不過究竟市場接受度怎樣、未來會不會普及,目前好像還看不到明確答案。
NVIDIA的NVLink 5,這東西目前好像還是牢牢地掌握在他們自己手上,沒打算讓別人隨便用。講白一點,就是想要高頻寬連接技術,得靠NVIDIA自己那顆晶粒才行。現在說是給其他晶片廠加NVLink 5的方法,其實也只是把他們自家的小模組塞進去。規格細節?現在外面根本沒什麼消息,也不曉得那顆晶粒大概有多佔空間、耗電量會不會比預期還高——感覺這些都還很難說。
另外,有些人可能會關心到底能提供多少條NVLink通道。如果想做個半客製的加速器,數量是不是跟那種主流GB200 GPU差不多?這問題到目前為止,好像也沒個定論。至於NVLink晶粒和其他零件之間,到底是用NVLink C2C這類現成方案來連接(畢竟跟CPU溝通時早就需要),還是會搞出別的新技術?NVIDIA其實也沒明講。不過,要是真的想湊出超大型處理器,這種模組拼裝方式或許某些場景下能有幫助吧,只是細節還得再等等看了。
另外,有些人可能會關心到底能提供多少條NVLink通道。如果想做個半客製的加速器,數量是不是跟那種主流GB200 GPU差不多?這問題到目前為止,好像也沒個定論。至於NVLink晶粒和其他零件之間,到底是用NVLink C2C這類現成方案來連接(畢竟跟CPU溝通時早就需要),還是會搞出別的新技術?NVIDIA其實也沒明講。不過,要是真的想湊出超大型處理器,這種模組拼裝方式或許某些場景下能有幫助吧,只是細節還得再等等看了。

有些人如果想要打造性能比較高的加速器,然後又想直接把它接到NVLink網路上,現在NVIDIA好像終於給了個辦法,只是這種做法還是有不少限制。其實說穿了,標準跟網路架構那些細節先擱一邊不談,NVIDIA自己也講得蠻明白的——NVLink Fusion基本就是個只能二選一的東西。你可以用來整合一顆半客製化CPU,或者是一個半客製化GPU,但同時兩者都用,好像就不行。系統廠商想拼湊那種同時採用別家CPU和別家GPU、而且又能一起吃NVLink這套的系統,目前看起來還沒辦法成真。最終還是得有那麼一塊NVIDIA自己的晶片插在節點裡才行吧。有時候會讓人覺得,這規則到底會不會改,其實也很難說清楚。
有些人說現在NVLink 5這件事,好像其實技術上沒啥大障礙,反倒是授權那一塊卡住了。有趣的是,做那些比較重的運算工作,幾乎都靠顯示卡在忙,不管那是NVIDIA自家的GPU,還是裝了NVLink Fusion小晶片的什麼加速器。處理器本身嘛……看起來根本沒怎麼參與這環節,也就沒啥決定性作用,就連真正用到NVLink 5的時候它好像也不太搭得上邊。
不過想想NVIDIA畢竟還是在賣矽晶片的人家,他們會真的願意自己從未來系統裡面消失嗎?而且他們竟然開始給設計晶片的人提供某些方法,讓人家可以直接把第三方加速器拿去取代掉NVIDIA的GPU——這感覺有點超出以往大家對他們的印象。畢竟說穿了,帶動公司生意增長的大頭還是他們自家顯示卡,不像只有少部分零星東西支撐。
其實整體看下來,好像授權政策比技術問題複雜多了。你說數量吧,大概目前市場上推廣NVLink 5的情況沒有想像中普及,也許還要等一段時間才會明朗。
不過想想NVIDIA畢竟還是在賣矽晶片的人家,他們會真的願意自己從未來系統裡面消失嗎?而且他們竟然開始給設計晶片的人提供某些方法,讓人家可以直接把第三方加速器拿去取代掉NVIDIA的GPU——這感覺有點超出以往大家對他們的印象。畢竟說穿了,帶動公司生意增長的大頭還是他們自家顯示卡,不像只有少部分零星東西支撐。
其實整體看下來,好像授權政策比技術問題複雜多了。你說數量吧,大概目前市場上推廣NVLink 5的情況沒有想像中普及,也許還要等一段時間才會明朗。

有些人可能會猜,NVIDIA這波看似鬆口的舉動,大概跟他們合作夥伴一直很希望機架設計能多點彈性有關。說實在的,Grace Blackwell這種方案,很難說適合每一種情境,更何況現在AI加速器未來走向也還沒個定論。無論最後背後真正原因是什麼,反正結果就差不多:NVIDIA終於開始把NVLink稍微對外開放一些——雖然幅度並不算大。
最近傳出像Alchip、AsteraLabs、Marvell和MediaTek這幾家廠商,看起來都已經各自著手開發自家加速器,有的是在幫忙協助設計,有的是準備直接把NVLink Fusion納進自己的產品裡。不過誰最先能推進到什麼程度,目前也還說不太準。有些細節好像還藏著一些變數。
總之短期內受惠的應該就是剛提到那幾家公司,他們現在正在嘗試用不同方式把NVLink拉進自家的AI硬體。有時候聽起來大家步調不太一樣,但市場慢慢往前推倒是蠻明顯的,只是各方期待值也沒有完全一致。NVLink擴大合作這件事,也許只是小幅度地打開了門縫,就看之後會怎麼演變了。
最近傳出像Alchip、AsteraLabs、Marvell和MediaTek這幾家廠商,看起來都已經各自著手開發自家加速器,有的是在幫忙協助設計,有的是準備直接把NVLink Fusion納進自己的產品裡。不過誰最先能推進到什麼程度,目前也還說不太準。有些細節好像還藏著一些變數。
總之短期內受惠的應該就是剛提到那幾家公司,他們現在正在嘗試用不同方式把NVLink拉進自家的AI硬體。有時候聽起來大家步調不太一樣,但市場慢慢往前推倒是蠻明顯的,只是各方期待值也沒有完全一致。NVLink擴大合作這件事,也許只是小幅度地打開了門縫,就看之後會怎麼演變了。
最近有聽說,像Fujitsu還有Qualcomm這些廠商,好像也在著手開發能夠跟NVIDIA的GPU協同運作的新型CPU。不過他們具體進度是到哪裡,消息其實都不是太明確。大概Fujitsu那邊正在打磨一顆用Armv9架構打造、定位比較頂級的新處理器,人家叫它Monaka吧。至於Qualcomm,名字還沒定下來,只知道是在針對數據中心用途嘗試一些新方案。
大家會特別關注NVLink Fusion這個東西,是因為它讓CPU可以直接連上NVIDIA自家的高速GPU互聯網路。有一說是,這樣一來效率可能會提升不少,只是到底能快到什麼程度,好像還得等實際產品出來才知道。
然後Cadence和Synopsys這兩間做設計IP的公司,也算間接參了一腳。他們除了提供一些用得到的硬體模組IP外,也願意協助其他想要自己做NVLink Fusion硬體的企業。所以現在不只是大廠能玩,有點資源的小團隊或許也能摸索看看,但細節應該還有很多沒公開。
如果你問業界是不是真的都搶著導入,其實各種聲音都有。有的人覺得NVLink Fusion可能帶來某些場景上的效益,尤其是在資料傳輸效率和系統整合性方面。但市面上相關案例目前看起來不到幾成,大部分還在評估階段吧。說穿了,就是每家廠商都想抓住下一波AI運算或者高效能運算的契機,可具體怎麼部署、誰最後真的用上了,也許過一陣子才會明朗。
大家會特別關注NVLink Fusion這個東西,是因為它讓CPU可以直接連上NVIDIA自家的高速GPU互聯網路。有一說是,這樣一來效率可能會提升不少,只是到底能快到什麼程度,好像還得等實際產品出來才知道。
然後Cadence和Synopsys這兩間做設計IP的公司,也算間接參了一腳。他們除了提供一些用得到的硬體模組IP外,也願意協助其他想要自己做NVLink Fusion硬體的企業。所以現在不只是大廠能玩,有點資源的小團隊或許也能摸索看看,但細節應該還有很多沒公開。
如果你問業界是不是真的都搶著導入,其實各種聲音都有。有的人覺得NVLink Fusion可能帶來某些場景上的效益,尤其是在資料傳輸效率和系統整合性方面。但市面上相關案例目前看起來不到幾成,大部分還在評估階段吧。說穿了,就是每家廠商都想抓住下一波AI運算或者高效能運算的契機,可具體怎麼部署、誰最後真的用上了,也許過一陣子才會明朗。
參考來源
解析川普高調中東行NVIDIA老黃跟AI供應鏈都笑了
供應鏈認為,川普對NVIDIA恩威並用,其大棒致使NVIDAI生產成本拉升、中國出貨大減,獲利將受明顯擊,但也給出胡蘿蔔,讓NVIDIA等廠見識其掌控AI供需的能力。
來源: DIGITIMESCommonWealth Magazine 天下雜誌
甚至未來,高通AI晶片還能透過輝達串接晶片的NVLinkFusion技術,進入輝達AI資料中心的生態系。雙方變成既在終端競爭、又在雲端合作的「競合關係」。 「資料中心的成長會持續 ...
來源: Zinio
相關討論