每日經濟新聞
今日報紙

每經網首頁 > 今日報紙 > 正文

多家頭部公司老總詳解算力“軍備競賽”規模之爭

每日經濟新聞 2025-09-09 20:45:07

每經記者|張蕊    每經編輯|陳旭    

算力的“軍備競賽”正日趨白熱化。特斯拉、微軟等巨頭正把GPU(圖形處理器)堆成山,其中馬斯克旗下人工智能公司xAI據稱已經搭建起20萬卡集群。

不久前,OpenAI聯合創始人、首席執行官奧特曼在社交平臺上預告,公司到年底前將上線超過100萬張GPU,更直言希望在這個數量規模上再擴容100倍。隨后,馬斯克揚言,5年內,xAI要部署到5000萬張H100GPU的等效算力。

對此,有業內人士對《每日經濟新聞》記者表示,目前,國內已出現兩萬/三萬卡的國產智算集群,未來幾年,模型訓練對萬卡到十萬卡級別仍有需求,但當前的大模型訓練,還不需要單個智算集群達到數十萬/百萬卡規模。該業內人士斷言“3年內單集群不太可能到30萬卡”。

一邊是美國企業號稱年底前要上線百萬卡集群,一邊是國內20萬卡、30萬卡集群尚無用武之地,這背后是何原因?

“無限堆卡”這條路能否一直走下去?十萬卡、百萬卡乃至更大規模的算力集群是否真的需要?

圍繞這一系列焦點問題,記者日前深入采訪了多位頭部企業的老總和業內專家,試圖理出一個清晰的脈絡。

追“卡”之因:規模定律下的“軍備競賽”

所謂萬卡集群,就是由超過1萬張加速卡[如GPU、TPU(張量處理器)或專用AI(人工智能)芯片]組成的高性能計算系統。

摩爾線程AI Infra總監陳志對《每日經濟新聞》記者表示,算力是實實在在的,萬卡解決的是訓練本身的問題——訓練大模型需要巨量的算力,單卡解決不了。

博大數據CEO張永健對記者表示,Scaling Law(規模定律)的驅動,是追求萬卡甚至十萬卡集群最核心的技術原因。在AI領域,尤其是大語言模型,已經反復驗證了一個規律:模型的性能與模型參數量、訓練數據量以及投入的計算量三個因素成正比。要訓練出更強大、具備涌現能力的千億甚至萬億參數模型,就必須投入海量的計算資源。

張永健舉例說,從GPT-3到GPT-4的性能飛躍,背后是計算量的指數級增長。而萬卡集群正是實現這種計算量級投入的物理載體。

多位受訪者坦言,大模型領域的競爭如同“軍備競賽”。誰能更快地訓練出更優的模型,誰就能搶占市場先機,定義技術標準,構建生態壁壘。

張永健說,一個原本需要6個月的訓練任務,如果通過萬卡集群能縮短到1個月甚至更短時間,這種迭代速度帶來的優勢是顛覆性的。

中國電信研究院戰略發展研究所所長饒少陽對記者表示,現在,大模型更多從“預訓練”轉向“后訓練”,并大量采用強化學習、思維鏈等方式,帶動算力需求倍速增長。另外,除了模型訓練外還有大量推理需求,比如平時用豆包、DeepSeek等,這同樣需要消耗大量算力。隨著模型推理需求爆發、智能體規模落地,未來推理將成為智算需求增長的主力,訓練算力也將同步增長。

據張永健介紹,目前,需要萬卡集群服務的用戶主要集中在頭部互聯網與云計算公司、金融科技巨頭、自動駕駛企業以及生物制藥與生命科學研究機構等幾個領域。

張永健舉例稱,類似生物制藥和生命科學領域進行蛋白質結構預測、藥物分子篩選等研究,這些復雜的科學計算任務借助大算力能顯著加速研發進程。

饒少陽表示,目前,國內已出現兩萬/三萬卡的國產智算集群,國外的30萬、50萬甚至100萬卡集群更多是宣傳。萬卡級以上規模智算集群主要用于大規模模型訓練,而當前的大模型訓練還不需要單個智算集群達到數十萬/百萬卡規模。“因為根本沒有那么多數據,模型參數也不太可能突然增長。”饒少陽表示,未來幾年,大模型訓練對萬卡到十萬卡級別仍有需求,3年以內單集群不太可能到30萬卡的規模。

陳志也認為,萬億參數級別模型基本需要大幾千卡甚至萬卡。國外頭部公司已做到10萬卡、20萬卡規模,國內還沒到這個水平,但今年也可能出現10萬卡集群,這是趨勢。因為模型的發布要搶時間,卡越多訓練的時間就越短。

筑“群”之困:系統穩定與網絡瓶頸

盡管基于不同的軟硬件水平,各家智算中心成本不同,但據業內粗略計算,構建和運營一個萬卡級別的智算中心成本驚人——至少在20億元以上。

“其中硬件采購成本占比最大,通常高達60%~80%,而GPU服務器本身占據了絕大部分。”張永健說,以1萬張主流訓練GPU為例,僅硬件采購成本就可能超過10億元。

如此大規模的投入,是否就能“絲滑”解決算力焦慮?對此,多位受訪者均表示,將集群規模從幾百幾千卡擴展到萬卡級別,絕非簡單堆砌硬件。這是一個復雜的系統工程,會遇到一系列非線性挑戰。

張永健認為,最大的技術難點是“系統級的穩定性和性能一致性”。在萬卡集群中,成千上萬個組件[GPU、CPU(中央處理器)、網卡、內存、線纜]中任何一個出現問題,都可能引發連鎖反應。確保整個系統作為一個“超級計算機”高效穩定運行,是最艱巨的挑戰。

用浪潮數據董事長張東的話說,不管是萬卡還是十萬卡,關鍵是能不能真的把這些卡當成一個系統跑起來。

而眼下關鍵的掣肘因素就是網絡互聯能力——從百卡擴展到萬卡,節點之間需要實現網狀、高速、低延遲互聯,既包括卡之間的互聯,也包括機器之間的互聯。

萬卡間的互聯技術是一個很大的挑戰。張東向《每日經濟新聞》記者解釋稱,目前,英偉達專供中國的芯片,主要就是限制了其互聯能力。就像人類工作時需多人協作,芯片工作時也需要進行數據交互,一張芯片處理完的數據要傳遞給另一張芯片進行處理。“本來咱倆面對面,我寫完一張紙就拿一張給你,現在一下變得隔了100米,還加了一個很慢的傳送帶,我寫完了放傳送帶上,隔兩分鐘你才能收到,這樣效率自然就下降了。”

張永健說,在萬卡規模下,構建一個無阻塞、高帶寬、低延遲的網絡架構,設計、部署和運維的復雜度呈指數級增長。任何一個交換機、光模塊或線纜出現微小抖動,都可能導致大規模的通信風暴,從而拖垮整個訓練任務。

不僅如此,“到了一定規模以后,機器的故障率就會很高,1萬卡的機器能連續跑1個小時,1張卡都不出問題,是很難的。”張東說。

有研究指出,一個十萬卡集群,其故障間隔可能縮短到每半小時一次。英偉達創始人黃仁勛也曾提到,10萬張GPU的平均無故障時間將縮短至分鐘級。

在張東看來,一方面是芯片本身的能力有限,另一方面,隨著卡的數量不斷增加,軟件的線性比(即軟件能否完美利用更多硬件資源的比率,越接近1越好)會下降,這意味著到某個點以后若再增加卡,性能并不會上升,還有可能下降。

而一次動輒耗時數周甚至數月的訓練任務,如果中途頻繁失敗且無法快速恢復,那么再高的理論算力也毫無意義,用戶獲得的有效算力將大打折扣。

除了穩定性,萬卡集群還面臨存儲性能瓶頸、軟件棧復雜性等方面的挑戰。

饒少陽坦言,受限于GPU內存訪問性能、網絡傳輸效率、算法優化程度、故障恢復能力等因素,想把萬卡集群的性能全部發揮到極致是一件極其復雜的事情。因此,目前萬卡集群的算力利用率并不高,行業領先者的利用率可達50%以上。

張永健還提到,一個萬卡集群的峰值功耗高達數十兆瓦(1兆瓦=1000千瓦,1小時1兆瓦即1000度電),這對數據中心的供配電和冷卻系統考驗巨大。

多位受訪者表示,一個萬卡集群的智算中心與傳統數據中心相比,能耗成倍增長,甚至達到十倍級。

破“局”之策:超節點與低精度計算發力

盡管用萬卡集群訓練模型面臨不少挑戰,但記者在采訪中了解到,目前,業內正積極探索在計算、網絡、存儲、能耗等方面進行優化。

8月23日,在2025中國算力大會(以下簡稱算力大會)現場,來自運營商、互聯網企業、芯片廠商、服務器制造商及科研院所等領域的數十家國內產學研用核心單位,共同宣布開啟智算開放互聯OISA(全向智感互聯架構)生態共建。

聯想中國區基礎設施業務群服務器事業部總經理周韜對《每日經濟新聞》記者表示,其實OISA就是卡間互聯的一套技術。

在算力大會算力成果展示區的中國移動展位,記者看到了帶有OISA標識的“國芯國連”超節點AI算力集群的機柜。山西移動政企能力運營總監呂樂向記者介紹稱,以往一個機柜最多放三四臺服務器,而這個超節點機柜能放16臺服務器,每臺服務器里有兩顆CPU、四張國產GPU,一共64張GPU卡(AI國產芯片)。

呂樂進一步表示,以前兩張卡部署在不同的服務器里,大家認為1+1=2,但盡管上下相隔只有幾厘米,轉發產生的時延往往也會使整個計算效率損失20%以上。“通過OISA協議把兩張GPU芯片級直連后,通信延遲降低產生的效果才大于2,實際計算效率是單卡的240%。”

問及不同廠家的GPU是否可以混插,呂樂表示,過去不行,不過現在通過統一 OISA協議,可以把不同廠家的接口、PCle(高速串行總線標準)、CXL(高速互聯協議)底層協議全部打通,包括昆侖芯、摩爾線程等的芯片都可以集成到同一機柜里,實現高密度、異構部署。

饒少陽表示,所謂超節點就是通過高速互聯技術,把幾十張甚至幾百張卡連接起來集成在一個大機柜里,比如華為昇騰384超節點就是把384張卡通過高速互聯“拼成”一臺超級服務器,整體性能可對標甚至超越GB200NVL72系統(英偉達的多節點液冷機架級擴展系統)。

呂樂表示,超節點是萬卡集群的基礎。如果在一個機柜里都沒法做到高效互聯,就談不上把1萬張卡連成一個整體。傳統分散部署時,1萬張卡加起來只能發揮60% ~70%的算力,而現在通過超節點內高效互聯+超節點間高速網絡,計算綜合效率有望大幅提升。

除了超節點技術,業內正在通過低精度計算來優化計算過程。其中,FP8(8位浮點數)技術逐漸嶄露頭角。

陳志提到,最早訓練是FP32(32位浮點數),慢慢轉向混合精度訓練FP32+FP16(16位浮點數),再到FP8,數據位寬逐漸變小,因此可實現更高的計算效率和更低的內存占用,進而降低算力成本。

打個比方,FP32、FP16和FP8就分別類似于游標卡尺、普通直尺和粗略的刻度尺,三者精度由高到低,內存占用從大到小,計算速度從慢到快,在保證模型性能和效果的前提下,選擇盡可能低的精度,并結合軟硬協同、算法優化等技術創新,可以換取速度、節能和成本上的巨大優勢。

在陳志看來,現在大模型對精度容忍度更高,FP8有很大機會。除了用低精度方法提升總算力,還要提升算力的整體利用率。利用率=單卡能力×萬卡能力×節點能力×集群能力×集群穩定性。“所有這些都在一個工廠里進行優化,也就是我們提的AI工廠概念,整體優化后,假如最后達到60%的利用率,而別人只有30%,那就相當于多了一倍的卡,或者達到同樣的訓練時間只用一半卡。”

降“耗”之路:液冷與綠電直連顯效

張永健告訴記者,一個萬卡集群的成本中,電力與運維成本大約占20%。其中,電力成本(包括IT設備用電和冷卻系統用電)是持續性的巨大開銷。一個10萬卡的集群,年耗電量可達1.59太瓦時(等于10億千瓦時即10億度電),電費超過1億美元。在運營成本中,冷卻系統的能耗是數據中心最大的支出之一,有時能占到總運營成本的50%。

華為數據中心能源副總裁張帆告訴《每日經濟新聞》記者,集群規模大了之后,功率密度變大,單個芯片散熱量很大,超過一定程度風就帶不走熱量,就需要有液冷方式。

周韜告訴記者,目前,液冷主要有兩種方式,冷板式液冷只能冷卻GPU或CPU,浸沒式液冷可以把整個機器所有部件都浸沒,散熱效率比前者提高30%~40%。

“目前,冷板式液冷其實可以滿足散熱需求,成本也更低,在維護、生產工藝、后續運維方面都更簡單。”周韜說,但浸沒式效率更高,未來GPU功耗再提升時,冷板可能也不夠,就像以前風冷夠用,后來功耗增大就不行了。當前,浸沒式是更具前瞻性的技術。

在算力大會上的聯想展位,記者看到一臺相變浸沒式液冷概念機。聯想中國基礎設施業務群市場部總監級技術顧問李鑫告訴記者,當冷卻液達到60攝氏度時就會變為氣體將熱量帶走,系統PUE(電能利用效率)低至1.035。

博大數據是國內最早大規模部署單相浸沒式液冷和冷板式液冷的廠商之一。張永健說,公司采用液冷的智算中心PUE可以控制在1.15以下,部分甚至可以達到1.04,遠優于傳統風冷數據中心1.4~1.5的水平。

有業內觀點認為,存算一體的芯片,有望能從根本上緩解大規模集群的能耗和散熱問題。張永健說,由于當前數據需要在存儲單元和計算單元之間頻繁搬運,耗時耗能。存算一體通過在存儲器內部完成計算,可極大減少數據搬運,理論上能帶來幾個數量級的能效提升。對于萬卡集群這種數據搬運極為密集的場景來說,吸引力巨大。

多位受訪者都認為,其商業化落地還十分遙遠。張永健說,從技術成熟度來說,它對新型存儲介質、電路設計、制造工藝都提出了極高要求,目前仍處于實驗室和早期原型階段。與此同時,現有軟件生態無法直接復用,應用場景上存算一體能否高效處理通用的大模型訓練任務,仍是一個未知數。

在能源供應方面,目前,算力電力協同已經成為多部門政策關注的焦點。目前,業內通過源-網-荷-儲多元互動形成了綠電直連、源網荷儲一體化、算力負載轉移、儲能技術、綠電綠證交易、虛擬電廠、算力賦能電力等協同模式,實現綠電就地消納。

中國信通院云大所數據中心部副主任王月認為,算力中心綠電直連,有望成為業內近期發展的重點。

綠電直連就是指光伏、風電等綠色電源項目,通過專線直接輸送給特定用戶,不再強制要求全額上網或僅通過電網企業統購統銷。

秦云基礎園區事業部總經理許俊對記者表示,其智算中心的單機柜功耗可以做到42千瓦,使用全風冷(風冷的散熱極限是單機柜60千瓦)散熱。由于采用了綠電直連,PUE這一指標可以說已經失效了,比如利用氟泵空調做一些余熱回收給辦公室供暖,“PUE可以為負”。

謀“遠”之思:單芯躍升與軟硬件協同

綜合來看,萬卡集群甚至十萬卡集群是否真能解決算力焦慮?絕大多數受訪者認為,單靠堆卡并不能完全解決。

張永健認為,算力焦慮的本質是人類對AI能力的無盡追求與物理世界資源限制之間的矛盾。今天可能覺得萬卡很龐大,但明天為了訓練更復雜的模型,又或許會需要百萬卡集群。需求總是在被滿足的同時,又被激發到新高度。

問及下一代算力基礎設施的突破方向,張東、周韜、北大人工智能研究院研究員孫仲等多位受訪者認為,首先還是應該從硬件去突破。換句話說,在AI算力競賽遠未結束的情況下,還是要提高單芯片的能力。

孫仲對《每日經濟新聞》記者表示,做大模型必須靠堆卡只是現狀,不是理論上的必然。如果未來有新芯片架構,效率比GPU高幾個數量級,那時就不用萬卡了,可能百卡甚至更少的計算卡就夠了。

張永健認為,未來,超算中心將不再是單一的GPU集群,而是CPU、GPU以及各種專用加速器、存算一體芯片甚至是光子計算芯片等多種計算單元深度融合的異構系統。挑戰在于如何通過統一的軟件接口,將不同的任務無縫調度到最適合它的硬件上。

在互聯技術方面,張永健認為,隨著帶寬需求的急劇增加,光互聯將從數據中心內部的交換機互聯進一步下沉到芯片與芯片之間。這將徹底消除電信號傳輸的瓶頸,實現更低延遲、更高帶寬的連接,為構建更大規模的計算集群掃清障礙。

多位受訪者同樣強調了軟件能力的重要性。張永健認為,當大家都能買到或建起萬卡集群時,如何比對手用得更好更省更高效,就成了決勝關鍵。未來競爭的焦點將集中在:更高效的AI框架和編譯器;更智能的調度算法;更先進的模型壓縮與量化技術;數據處理與I/O(輸入/輸出)優化。

呂樂認為,未來不是簡單堆20萬、30萬張卡,而是把全國30多個省份的算力、存力、運力統一調度起來,就像高鐵調度一樣,哪里任務多就擴哪里,哪里有空余就調劑過去,實現算力“像水電一樣”彈性流通。

張永健還提到,軟硬件協同設計非常重要,未來AI芯片和系統在設計之初,就會與上層的AI算法和框架進行協同設計。硬件為特定算法優化,算法也充分利用硬件的特性,實現1+1﹥2的效果。

此外,探索更高效的訓練方法,如自監督學習、遷移學習、稀疏化訓練等,減少對海量標注數據的依賴和對蠻力計算的投入,可以從源頭上降低算力需求。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

算力 模型

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

国产午夜精品理伦片,亚洲手机在线人成网站播放,欧美一级一级a做性视频,亚洲国产色精品三区二区一区
日韩电影免费在线观看网址 | 婷婷丁香五月欧美在线播放 | 日韩二区三区久久久 | 亚洲中文字幕永久在线全国 | 亚洲日韩欧美一区二区 | 欧美一区二区三区免费A级视频 |