&

DeepSeek砸開(kāi)裂縫，國(guó)產(chǎn)算力奔涌而出

來(lái)源：第一財(cái)經(jīng)作者：彭海斌2025-02-07 15:43

（原標(biāo)題：DeepSeek砸開(kāi)裂縫，國(guó)產(chǎn)算力奔涌而出 | 萬(wàn)有AI力）

中國(guó)市場(chǎng)會(huì)慢慢演變，屆時(shí)英偉達(dá)會(huì)是一部分算力底座，其他國(guó)產(chǎn)芯片是另一部分算力底座。

DeepSeek是國(guó)產(chǎn)算力企業(yè)在春節(jié)看到的最大煙花。

2025年春節(jié)前，DeepSeek發(fā)布大模型；春節(jié)期間，國(guó)內(nèi)GPU企業(yè)以及云計(jì)算廠商等，紛紛披露適配DeepSeek模型的進(jìn)展。為此，不少科技從業(yè)人員度過(guò)了一個(gè)無(wú)休的假期。DeepSeek大模型的訓(xùn)練是基于英偉達(dá)的GPU，目前后者是全球大模型的算力底座（占比九成以上）。不過(guò)，DeepSeek也指向重大轉(zhuǎn)變的可能：訓(xùn)練一款性能優(yōu)異的大模型，不需要那么多高的算力投入。

DeepSeek震蕩科技圈，國(guó)產(chǎn)算力搭配國(guó)產(chǎn)大模型的機(jī)會(huì)出現(xiàn)。沐曦CTO楊建認(rèn)為，今年年底部分大模型的預(yù)訓(xùn)練可能會(huì)轉(zhuǎn)入非英偉達(dá)的卡，明年這種趨勢(shì)會(huì)更加明顯。“中國(guó)市場(chǎng)會(huì)慢慢演變，屆時(shí)英偉達(dá)會(huì)是一部分算力底座，其他國(guó)產(chǎn)芯片是另一部分算力底座。全球算力供應(yīng)變成兩條并行的線路了。”

國(guó)產(chǎn)算力搭配國(guó)產(chǎn)模型

春節(jié)前后，國(guó)產(chǎn)芯片密集適配DeepSeek。

2月1日，大模型云服務(wù)平臺(tái)Silicon Cloud上線了DeepSeek-V3、DeepSeek-R1。Silicon Cloud背后的公司硅基流動(dòng)特別強(qiáng)調(diào)，“在自研推理加速引擎加持下，硅基流動(dòng)團(tuán)隊(duì)基于華為云昇騰云服務(wù)部署的DeepSeek 模型可獲得持平全球高端GPU部署模型的效果。”

2月2日，Gitee AI表示在春節(jié)期間上線四個(gè)較小尺寸的DeepSeek模型,均部署在國(guó)產(chǎn)的沐曦曦云GPU上，面向開(kāi)發(fā)者市場(chǎng)。

據(jù)沐曦CTO楊建向第一財(cái)經(jīng)介紹，從雙方協(xié)商到部署完成，整個(gè)過(guò)程不過(guò)兩天時(shí)間。“模型大小決定了使用場(chǎng)景，比如1.5B模型可以用到手機(jī)上，7B及以上模型都可以用在云端或者私有化部署上。”

2月4日，摩爾線程宣布完成了小尺寸的DeepSeek模型在其自主設(shè)計(jì)的夸娥（KUAE）GPU集群上的部署，并表示即將開(kāi)放夸娥智算集群，支持DeepSeek V3、R1模型及新一代蒸餾模型的分布式部署。

“DeepSeek V3和R1模型的部署需要集群能力。但基于DeepSeek蒸餾的小模型，不需要集群也能部署。摩爾線程基于自研全功能GPU，通過(guò)開(kāi)源與自研雙引擎方案，可以快速實(shí)現(xiàn)對(duì)DeepSeek蒸餾模型的推理服務(wù)部署。”摩爾線程AI與云計(jì)算副總裁王華書(shū)面回復(fù)第一財(cái)經(jīng)時(shí)表示。

2月5日，云服務(wù)商優(yōu)刻得宣布基于壁仞科技國(guó)產(chǎn)芯片的內(nèi)存架構(gòu)、多模型適配能力，開(kāi)展包括R1在內(nèi)的DeepSeek全系列模型適配工作。壁仞科技是一家中國(guó)GPU廠商。實(shí)際上，在壁仞科技的芯片上部署DeepSeek之前，優(yōu)刻得已經(jīng)在英偉達(dá)芯片上部署了這款大熱的模型。

“我們應(yīng)該是在除夕那天完成的部署。”優(yōu)刻得計(jì)算產(chǎn)品中心研發(fā)總監(jiān)王曉慧對(duì)第一財(cái)經(jīng)表示，很多科技企業(yè)和技術(shù)人員被DeepSeek年前所放的大煙花所震動(dòng)，度過(guò)了一個(gè)無(wú)休的春節(jié)。

在DeepSeek-V3/R1上線不久，昆侖芯也完成了全版本模型適配，其中包括DeepSeek MoE 模型及其蒸餾的Llama/Qwen等小模型。昆侖芯方面表示，該公司的P800僅需32臺(tái)即可支持模型全參訓(xùn)練，完成模型持續(xù)訓(xùn)練和微調(diào)。

這幾家中國(guó)芯片企業(yè)表態(tài)前后，國(guó)內(nèi)國(guó)際的科技大廠也先后表示已經(jīng)將DeepSeek模型納入其產(chǎn)業(yè)生態(tài)，這些大廠包括了國(guó)內(nèi)的阿里云、百度云以及騰訊云，美國(guó)的亞馬遜云科技、Meta、谷歌等。

不過(guò)，這些科技大廠的算力底座基本都是英偉達(dá)。

“在大模型訓(xùn)練過(guò)程中，我認(rèn)為全球98%的訓(xùn)練是基于英偉達(dá)GPU算力底座的。今天為止，非英偉達(dá)算力底座的訓(xùn)練合在一起可能也就2%的市場(chǎng)份額。”楊建告訴記者。

王曉慧同樣認(rèn)為，當(dāng)下“云上算力的分布，98% 、99%都是英偉達(dá)。”

DeepSeek展示了超強(qiáng)的產(chǎn)業(yè)穿透力，不過(guò)它并沒(méi)有脫離英偉達(dá)生態(tài)。王華認(rèn)為，DeepSeek繞過(guò)英偉達(dá)的CUDA是誤讀，本質(zhì)上其技術(shù)實(shí)現(xiàn)仍深度依賴(lài)NVIDIA生態(tài)的核心組件（PTX）。即使框架層試圖抽象化CUDA API，只要底層運(yùn)行在英偉達(dá)GPU上，就不可避免與CUDA工具鏈和硬件驅(qū)動(dòng)綁定。這種依賴(lài)關(guān)系反映了當(dāng)前AI算力領(lǐng)域“NVIDIA主導(dǎo)，開(kāi)源生態(tài)依附”的現(xiàn)實(shí)格局。

“只是第一步跨出來(lái)了”

“國(guó)產(chǎn)算力把DeepSeek模型跑起來(lái)，其實(shí)是相對(duì)比較容易的。現(xiàn)在大家都只是第一步跨出來(lái)了。”王曉慧表示。

國(guó)產(chǎn)GPU適配主流開(kāi)源大模型已經(jīng)有幾年時(shí)間，比如支持Meta的LlaMa、阿里的通義千問(wèn)等。但難點(diǎn)之一在于如何把模型架構(gòu)跟硬件架構(gòu)做比較好地結(jié)合，使其整體性能得到更大提升。

目前DeepSeek大模型搭配的國(guó)產(chǎn)GPU所能展示出來(lái)的性能和英偉達(dá)GPU還有一定差距。這背后原因在于DeepSeek模型本身的架構(gòu)，它的訓(xùn)練、推理過(guò)程，最初都是在英偉達(dá)芯片上跑出來(lái)的，針對(duì)英偉達(dá)芯片做了高度的調(diào)優(yōu)。“短時(shí)間內(nèi)，很難把這些優(yōu)化點(diǎn)匹配到國(guó)產(chǎn)芯片上來(lái)。我覺(jué)得這也是接下來(lái)各大國(guó)產(chǎn)芯片廠商要去做的一件事情。”

國(guó)產(chǎn)芯片繞過(guò)英偉達(dá)抵達(dá)最終用戶(hù)，難點(diǎn)更在于英偉達(dá)的護(hù)城河寬且深。

“比如說(shuō)他（指用戶(hù)）現(xiàn)在跑一個(gè)（英偉達(dá)）4090或者跑一個(gè)（英偉達(dá)）H100，裝一個(gè)軟件報(bào)錯(cuò)了。他去論壇或者問(wèn)身邊有經(jīng)驗(yàn)的人，就能非常容易地找到解決方案。大家遇到過(guò)類(lèi)似的問(wèn)題，能夠在社區(qū)里面找到可以咨詢(xún)的人。”楊建對(duì)記者說(shuō)，而很多國(guó)產(chǎn)卡的信息不那么開(kāi)放，社區(qū)活躍度沒(méi)有那么高，用戶(hù)一旦遇到卡點(diǎn)就很難解決，要花很多時(shí)間在非業(yè)務(wù)上。

這一點(diǎn)在小型團(tuán)隊(duì)上表現(xiàn)得更加明顯。

直播、數(shù)字人等小型團(tuán)隊(duì)，有時(shí)候只有四五個(gè)人。這些團(tuán)隊(duì)在財(cái)力上缺乏騰挪的空間，在技術(shù)迭代上缺乏騰挪的時(shí)間。“他們做東西一定是一上來(lái)就要養(yǎng)活團(tuán)隊(duì)。哪個(gè)更容易上手，哪個(gè)錢(qián)更少，他一定是去走這條路徑，而不是一上來(lái)就國(guó)產(chǎn)化。”王曉慧說(shuō)，小型公司部署大模型的時(shí)候，優(yōu)先考慮的還是英偉達(dá)的算力，這是最快看到結(jié)果，或者試錯(cuò)成本最低的方式。

國(guó)產(chǎn)芯片往往需要在價(jià)格上給出折扣，才能更好導(dǎo)入私有化部署的企業(yè)。王曉慧認(rèn)為：“國(guó)產(chǎn)算力卡的性?xún)r(jià)比要達(dá)到20%、甚至30%的提升，否則企業(yè)很少有會(huì)愿意去做主動(dòng)替換。”

美國(guó)在過(guò)去幾年實(shí)施的高端算力芯片禁令，使得中國(guó)企業(yè)更難以獲得英偉達(dá)產(chǎn)品，而DeepSeek爆火之后，已經(jīng)有些美國(guó)企業(yè)開(kāi)始炒作進(jìn)一步限制中國(guó)芯片進(jìn)口。美國(guó)禁令倒逼中國(guó)芯片企業(yè)發(fā)展。

“DeepSeek火了之后，美國(guó)企業(yè)是非常恐慌的。所以未來(lái)對(duì)中國(guó)算力的管控一定會(huì)越來(lái)越嚴(yán)。我們自身如果沒(méi)有任何突破的話，算力就會(huì)成為一個(gè)瓶頸。所以國(guó)產(chǎn)算力是必然要去走的一條路。”王曉慧說(shuō)。

并行的算力供應(yīng)線

據(jù)楊建觀察，DeepSeek公開(kāi)的技術(shù)報(bào)告對(duì)芯片設(shè)計(jì)給出了一些建議。

“它自己在跑H800的過(guò)程中，發(fā)現(xiàn)有一些設(shè)計(jì)本身是不太合理的。比如芯片占用大量的算力去做通信，DeepSeek提出能不能把通信抽出來(lái)做。英偉達(dá)就很難根據(jù)這種建議去做改進(jìn)，但是國(guó)產(chǎn)卡是有可能采納這部分意見(jiàn)的。”楊建說(shuō)。英偉達(dá)生態(tài)龐大而牽一發(fā)動(dòng)全身，國(guó)產(chǎn)芯片企業(yè)普遍規(guī)模比較小，也有靈活機(jī)動(dòng)的優(yōu)勢(shì)。“國(guó)產(chǎn)芯片起步?jīng)]有那么早，技術(shù)棧沒(méi)有那么深，想要去做一些調(diào)整，應(yīng)該是比較輕量的。”

DeepSeek并不比其他國(guó)產(chǎn)大模型更容易搭載國(guó)產(chǎn)芯片。但王曉慧也認(rèn)為，只要是走在這個(gè)發(fā)展路徑上，一定會(huì)適配的越來(lái)越好。

王曉慧表示：“它不可能一下子把所有在英偉達(dá)上的優(yōu)化，能夠無(wú)縫遷移到國(guó)產(chǎn)卡上，這是有適配周期和過(guò)程的。但你這有了這樣的一個(gè)模型架構(gòu)，國(guó)產(chǎn)卡可以去出一些軟件升級(jí)，一些還在萌芽里的芯片廠在設(shè)計(jì)上可能也會(huì)有一些新的想法，能夠去讓DeepSeek優(yōu)化的更好。”

騰訊云、優(yōu)刻得這樣的平臺(tái)搭載的大模型接近百款，除了使用英偉達(dá)的芯片之外，在幾年前就已經(jīng)適配壁仞科技等國(guó)產(chǎn)芯片。

最早的時(shí)候，優(yōu)刻得為了能讓國(guó)產(chǎn)卡跑起來(lái)，需要做非常多的適配、調(diào)試。但那時(shí)候的“國(guó)產(chǎn)卡可能跑著跑著就掛了”。

“原先我們測(cè)一些機(jī)卡，單卡的性能可能達(dá)到英偉達(dá)的一定程度。一旦到多卡多機(jī)之后，性能就明顯有衰減。”王曉慧從幾年前開(kāi)始測(cè)試一些國(guó)產(chǎn)卡，她感覺(jué)進(jìn)步明顯，“我們?nèi)ツ觊_(kāi)始已經(jīng)能看到，這部分已經(jīng)在緩解，有非常大的提升。”

國(guó)產(chǎn)算力也在日新月異地提升。

蛇年開(kāi)工當(dāng)天，昆侖芯新一代產(chǎn)品P800萬(wàn)卡集群點(diǎn)亮。昆侖芯也已適配文心系列、Llama、Qwen、ChatGLM等各類(lèi)大模型的推理和訓(xùn)練任務(wù)；摩爾線程目前已經(jīng)適配并拉起了數(shù)百個(gè)LLM模型的訓(xùn)練，在制造業(yè)、工程機(jī)械、教育、金融、政務(wù)、AI繪畫(huà)等眾多行業(yè)得到一定的應(yīng)用。

楊建認(rèn)為，今年年底部分大模型的預(yù)訓(xùn)練可能會(huì)轉(zhuǎn)入非英偉達(dá)的卡，而明年這種趨勢(shì)會(huì)更加明顯。“到了2026年、2027年，我認(rèn)為英偉達(dá)在美國(guó)仍然是最主要的預(yù)訓(xùn)練、甚至后訓(xùn)練的算力底座。但中國(guó)市場(chǎng)會(huì)慢慢演變，屆時(shí)英偉達(dá)會(huì)是一部分算力底座，其他國(guó)產(chǎn)芯片是另一部分算力底座。全球算力供應(yīng)變成兩條并行的線路了。”

目前英偉達(dá)GPU在算力性能和生態(tài)成熟度上仍具優(yōu)勢(shì)，DeepSeek等大模型的技術(shù)迭代短期內(nèi)難以完全脫離其生態(tài)。但長(zhǎng)期來(lái)看，隨著國(guó)產(chǎn)替代的推進(jìn)、算法優(yōu)化能力的提升，以及行業(yè)對(duì)供應(yīng)鏈安全的重視，將逐步降低單一依賴(lài)風(fēng)險(xiǎn)。

“這一過(guò)程需要時(shí)間和技術(shù)積累，但已是不可逆的趨勢(shì)。未來(lái)的算力底座更可能呈現(xiàn)‘多元共存’的形態(tài)，而非某一廠商的絕對(duì)主導(dǎo)。”王華表示。

責(zé)任編輯：胡青

通信

芯片

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場(chǎng)