在DeepSeek極低成本的推動下,開源模型和閉源模型的差距顯著縮小,也掀起一輪國產AI芯片廠商競相適配風潮。
21世紀經濟報道記者綜合觀察發現,大約自2月1日開始,國產頭部AI芯片廠商先后宣布實現與DeepSeek旗下不同模型陸續展開適配工作。據不完全統計,目前有不少于20家國內廠商參與其中。
AI芯片市場主要包含CPU、GPU、ASIC、FPGA等不同類型芯片,在AI對大規模并行計算的需求下,GPU芯片需求快速攀升,由此帶來英偉達業績和股價的雙重飆升。但DeepSeek的出現,象征著AI推理側成本正在快速下探,由此將拉動更為廣闊的應用市場涌現。
這意味著,不僅限于GPU芯片,在AI推理側有細分優勢的ASIC、FPGA等芯片也將有豐富的發展機會。此外,國產AI芯片廠商恰恰在AI推理領域有更多能力沉淀,因此多名業內人士對記者表示,這有望推動國內廠商有機會在推理側與英偉達搶占一定份額。
但是,此前DeepSeek多采用英偉達GPU系列芯片,更多適配CUDA生態,國產芯片如何在此條件下撬動更多份額,這又是否會為英偉達的市場帶來擠壓?都是業內的關注焦點。
圖片來源:創意制圖 梁遠浩
伴隨DeepSeek席卷全球而來的,是國內芯片廠商的涌動。2月以來,多家國內AI芯片廠商密集宣布,與DeepSeek不同規格模型陸續完成適配。
例如,2月2日,Gitee AI稱上線1.5B、7B、14B、32B四個尺寸的DeepSeek R1模型,并均部署在國產沐曦曦云GPU上。2月5日,Gitee AI又宣布,經測試已確認DeepSeek-V3全精度滿血版(671B)可以成功運行在沐曦訓推一體GPU上,并將V3滿血版上線到平臺上。
2月4日,天數智芯稱在與Gitee AI協作下,用時一天完成與DeepSeek R1的適配工作,上線1.5B、7B、14B規格大模型服務。2月9日,天數智芯稱,DeepSeek R1-Distill-Qwen(1.5B/7B/14B/32B)、DeepSeek R1-Distill-Llama(8B/70B)等多款不同參數模型服務已經在各大平臺上線。
2月6日,燧原科技完成對DeepSeek全量模型適配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。
綜合觀察這些廠商的表述不難發現,“適配速度”是尤其被重視的指標。率先被適配的是模型參數量偏小的蒸餾模型,MoE基礎模型的適配時間顯然會更長。
這背后其實透露出,國內AI芯片廠商在試圖證實,自身在AI生態適配方面的速度和實力。
對比來看,英偉達GPU芯片目前被全球廣泛使用,大有壟斷態勢,背后源自其構建了三大護城河:硬件GPU芯片+軟件CUDA生態+NV Link連接。國產芯片要在GPU領域加速發展滲透,生態建設就是重要一環,生態的完善程度,一定程度決定了AI芯片的能力是否可以被充分釋放以及應用落地速度。
但CUDA生態已發展十多年,在這一層面要很快完成追趕顯然不容易,目前國產芯片廠商中,有的選擇自主架構、先從垂直應用領域著手構建生態,有的則兼容CUDA生態來推動發展。
海光信息就指出,因其DCU芯片采用了GPGPU通用加速計算架構,DeepSeek模型可直接在DCU上運行,并不需要大量適配工作,技術團隊的主要工作是進行精度驗證和持續的性能優化。
“眾多國產AI芯片廠商與DeepSeek的快速適配潮是中國芯片實現國際化突擊的第一步。”CIC灼識咨詢高級咨詢顧問張笑璐對記者分析道,DeepSeek對于中國AI芯片廠商的利好非常確定,通過與DeepSeek合作,中國芯片廠商加速了深度學習框架和分布式訓練適配,推動了中國“國產算力+國產大模型”閉環生態。
她進一步指出,過去中國AI芯片的核心挑戰是英偉達GPU和其CUDA生態在全球AI訓練芯片領域的統治地位。而DeepSeek的出現,通過模型蒸餾技術和高效的算法優化,降低模型對于硬件算力要求。同時DeepSeek通過專家混合系統(MoE)、多頭潛在注意力機制(MLA)和RMSNorm核心組件,并采用專家共享機制、動態路由算法和潛在變量緩存技術,在模型保持高性能水平的同時降低計算開銷,以實現在有限計算資源的情況下的高效運行。
“性能表現角度來看DeepSeek推理任務表現與OpenAI媲美,甚至在部分任務有所領先。這使得國產AI芯片在推理端可以快速實現商業化,同時說明了用國產AI芯片替換英偉達GPU是非常可行的。”張笑璐總結道。
當然她也指出,訓練端國產芯片與英偉達的差異依然存在,在更復雜的模型訓練場景下,國產芯片還需提升。此外也有挑戰,中國AI芯片生態碎片化問題還需要進一步統一,來提升整體開發效率,降低開發成本。
在DeepSeek帶動下,近日來,包括OpenAI、豆包、百度等巨頭也證實了推理側成本正在快速下降的現實。
張笑璐對21世紀經濟報道記者分析,DeepSeek訓練成本的大幅下降打破了行業更高訓練成本與更好的模型/產品性能表現的局限,因此行業關注點更多從過去決定下限的訓練環節,轉向現在能夠確定上限的推理環節。對于下游行業來說,中算力的玩家也能夠在DeepSeek的助力下實現性能提升。
通常來說,被廣泛采用的英偉達GPU芯片早期多被用于AI大模型訓練,但到了推理階段,考慮到不同廠商的訴求差異,更多應用類廠商都開始著力開發自己的AI推理芯片,多為定制化ASIC芯片。
海外云服務廠商谷歌、Meta、亞馬遜等在近期發布財報過程中都或多或少提到了自研推理芯片的業務進展。例如谷歌借助自研TPU芯片Trillium系列,加速搜索引擎能力優化;Meta借助自研芯片MTIA系列強化社群算法和廣告分發能力等。
對此,TrendForce集邦咨詢分析師龔明德對記者分析,“預期在DeepSeek驅動下,將促使CSP(云服務商)業者更積極投入較低成本的自有ASIC方案,并從AI Training(訓練)重心轉往AI Inference(推理)。展望2028年,其占比預期將逐漸提升至五成。”
在此發展態勢下,他認為,這將有望帶動國內各行業(如車用、電商、互聯網及各種基建等)的AI推理芯片開發或相關業者發展商機。然而,仍面臨主要挑戰在于,無論AI芯片硬件或軟件方面,均需投入相當的成本或時間累積。
不過這由此引發ASIC芯片是否會搶占AI芯片整體市場中GPU芯片的地位。根據21世紀經濟報道記者綜合了解,業內普遍認為并非如此,應該說,ASIC芯片和GPU芯片是在共同“做大蛋糕”,而非“分食”。
TrendForce集邦咨詢分析師邱珮雯對21世紀經濟報道記者指出,從AI芯片來看,未來市場GPU與ASIC會同時并存。云端業者除了采用英偉達GPU以外,也在積極研發自身ASIC芯片,除了針對自身應用定制化以外,還能降低對英偉達芯片的依賴度,同時降低支出成本。
“ASIC芯片的成本優勢可能會逐步顯現。”張笑璐也認為,盡管ASIC在某些特定推理場景中會持續蠶食GPU的市場份額,但不會導致GPU需求的總體下降。“在需要大規模部署和嚴格功耗控制的應用場景中,GPU依然會在更多通用計算任務中保持強勁需求,尤其是在多任務和多場景的計算需求下。兩者的市場需求可能不會簡單地‘互相替代’,而是將互為補充。”
另據21世紀經濟報道記者了解,目前在大模型能力適配方面,國內AI芯片廠商更強于AI推理側,但是在有更大規模集群計算需求的AI訓練側則還有差距。這也是DeepSeek多款模型更適配這些廠商能力的原因。
考慮到DeepSeek此前多適配英偉達旗下芯片,國內廠商要承接其生態是否面臨門檻?
張笑璐告訴21世紀經濟報道記者,從模型架構通用性看,DeepSeek模型基于Transformer架構,是諸多領域模型的基礎,因此適配并非難題。在軟件生態部分,部分國產芯片兼容CUDA,可復用TensorFlow/PyTorch生態資源、加快適配,也有實力廠商也能自研軟件棧優化性能。
“目前國內廠商多進行了推理的適配,推理計算需求較低,可通過優化內存和指令集適配。而訓練適配的要求更高,涉及分布式計算和梯度同步,國產芯片大多仍依賴英偉達GPU,訓練適配是難點。”她續稱。