2月28日,國內AI明星公司DeepSeek為期五天的 “開源周” 告一段落。其于2月24日正式啟動,計劃開源5個代碼庫,旨在以完全透明的方式與全球開發者社區分享其在通用人工智能(AGI)領域的研究進展。
回顧這五日,其最先開源的是FlashMLA,這是專為英偉達Hopper GPU優化的高效MLA解碼內核,專為處理可變長度序列設計。
在自然語言處理等任務里,數據序列長度不一,傳統處理方式會造成算力浪費。而FlashMLA如同智能交通調度員,能依據序列長度動態調配計算資源。例如在同時處理長文本和短文本時,它可以精準地為不同長度的文本分配恰當的算力,避免 “大馬拉小車” 或資源不足的情況。發布6小時內,GitHub上收藏量突破5000次,被認為對國產GPU性能提升意義重大。
第二日開源的是DeepEP。DeepEP是首個用于MoE(混合專家模型)訓練和推理的開源EP通信庫。MoE模型訓練和推理中,不同專家模型需高效協作,這對通信效率要求極高。DeepEP支持優化的全對全通信模式,就像構建了一條順暢的高速公路,讓數據在各個節點間高效傳輸。
它還原生支持FP8低精度運算調度,降低計算資源消耗,并且在節點內和節點間都支持NVLink和RDMA,擁有用于訓練和推理預填充的高吞吐量內核以及用于推理解碼的低延遲內核。簡單來說,它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運行效率 。
第三日是DeepGEMM,矩陣乘法加速庫,為V3/R1的訓練和推理提供支持。通用矩陣乘法是眾多高性能計算任務的核心,其性能優化是大模型降本增效的關鍵。DeepGEMM采用了DeepSeek-V3中提出的細粒度scaling技術,僅用300行代碼就實現了簡潔高效的FP8通用矩陣乘法。
它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達到1350+ FP8 TFLOPS(每秒萬億次浮點運算)的計算性能,在各種矩陣形狀上的性能與專家調優的庫相當,甚至在某些情況下更優,且安裝時無需編譯,通過輕量級JIT模塊在運行時編譯所有內核。
第四日開源優化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問題,即計算和通信階段存在等待時間,造成資源浪費。DualPipe通過實現 “向前” 與 “向后” 計算通信階段的雙向重疊,將硬件資源利用率提升超30%。
EPLB則是一種針對V3/R1的專家并行負載均衡器。基于混合專家(MoE)架構,它通過冗余專家策略復制高負載專家,并結合啟發式分配算法優化GPU間的負載分布,減少GPU閑置現象。
在第五日,DeepSeep開源了面向全數據訪問的推進器3FS,也就是Fire-Flyer文件系統。它是一個專門為了充分利用現代SSD和RDMA網絡帶寬而設計的并行文件系統,能實現高速數據訪問,提升AI模型訓練和推理的效率。
此外,DeepSeek還開源了基于3FS的數據處理框架Smallpond,它可以進一步優化3FS的數據管理能力,讓數據處理更加方便、快捷。
全球開發者可基于上述開源項目進行二次開發與改進,有望推動AI技術在更多領域的應用。