
【導語】在AI算力成為發展核心(xīn)的(de)當(dāng)下(xià),DeepSeek發(fā)布(bù)V3.1版(bǎn)本(běn),采用(yòng)專(zhuān)為(wèi)提(tí)升(shēng)AI計(jì)算(suàn)效(xiào)率(lǜ)設(shè)計(jì)的(de)UE8M0 FP8參(cān)數(shù)精度,為國產AI算力自主化開辟新路徑。該版本不僅在算力優化上取得進展,推動模型進入智能體時代,更助力國產芯片追趕國際水平,是AI算力產業自主化的關鍵一步。
在人工智能快速發展的時代,算力已成為決定AI技術前進速度的核心要素。近年來,在市場需求和政策支持的驅動下,國內眾多企業開始積極探索自主可控的算力解決方案。DeepSeek最新發布的V3.1版本,通過一係列技術創新,在提升模型自身的性能的同時,也為AI算力產業的自主化探索了一條切實可行的路徑。
不久前,DeepSeek正式發布其最新版本DeepSeek-V3.1,該版本采用了UE8M0 FP8 Scale的參數精度。DeepSeek官微在置頂留言稱,UE8M0 FP8是針對即將發布的下一代國產芯片設計。

UE8M0 FP8的創新價值
UE8M0 FP8是一項專為提升AI計算效率,尤其是在算力受限環境下,而設計的低精度計算技術。其核心是在不顯著損失模型精度的前提下,大幅降低內存占用和提升計算速度。
具體來說,FP8表明它是一種8位浮點數,類似於糖心免费视频熟知的FP16或INT8,但位數更少(shǎo),能(néng)顯(xiǎn)著(zhe)降(jiàng)低(dī)內(nèi)存(cún)占(zhàn)用(yòng)和(hé)計(jì)算(suàn)資(zī)源(yuán)需(xū)求(qiú)。而(ér)UE8M0則(zé)精(jīng)確(què)定(dìng)義(yì)了(le)其(qí)格(gé)式(shì),U代(dài)表(biǎo)無(wú)符(fú)(Unsigned),隻(zhǐ)能(néng)表示正數和零;E8代表8位指數(Exponent),決定了數值的大小範圍;M0代表0位尾數(Mantissa),意味著它沒有用於存儲精度的尾數位。因此,一個UE8M0格式的數值,其實際表示的數值是2的整數次冪,這使得它的數值分布是離散的指數形式,而非連續的。
可以借助一個比喻來理解,就像會議記錄不必逐字抄寫,隻需記下關鍵思路與邏輯關係,就能在保留核心信息的同時極大提升效率、節省篇幅。UE8M0在AI芯片中發揮類似作用,以最快速度、最小空間處理對結果影響最大的數值信息,從而在保障準確性的同時實現效率的提升。
目前,已量產的國產AI芯片多數仍以FP16或INT8為主要計算格式,尚未在硬件層麵原生支持FP8。然而這一局麵正在改變。預計於2025年下半年發布的摩爾線程MUSA 3.1 GPU、芯原VIP9000 NPU等新一代國產芯片,已在宣傳中明確列出對原生FP8或Block FP8的支持,並與DeepSeek、華為等15家企業聯合驗證UE8M0格式(shì)。這(zhè)意(yì)味(wèi)著(zhe)國產芯片正在計算精度與算力層麵加速追趕國際先進水平。
盡管如此,帶寬仍是當前國產芯片麵臨的主要挑戰。與國際頂尖芯片相比,下一代國產芯片在HBM等高速內(nèi)存(cún)帶(dài)寬(kuān)方(fāng)麵(miàn)仍存在差距。而UE8M0憑借其塊縮放(Block Scaling)機製有效應對這一瓶頸,通過將多個FP8數值成組處理,共用同一縮放因子,而非逐個配置,大幅降低了數據傳輸需求。
在有限帶寬條件下,UE8M0顯著減少了非必要的數據搬運開銷,使帶寬資源更集中於核心運算,因而被視為下一代芯片架構的關鍵優化方向。對正處於追趕階段的國產芯片來說,支持並優化UE8M0這類高效格式,無疑是通過算法創新彌補硬件短板、實現彎道超車的重要路徑。
邁向智能體新時代
DeepSeek-V3.1不僅在算力優化方麵取得了進展,還在模型能力上實現了重要突破,推動其進入智能體時代。智能體是一種比普通對話模型更高級的形態,能夠像(xiàng)人(rén)類(lèi)一(yī)樣(yàng)判(pàn)斷(duàn)任(rèn)務(wu)、調(diào)用(yòng)工(gōng)具(jù)並(bìng)自(zì)主思(sī)考(kǎo)。
1、混(hùn)合推理架構的創新
以往的模型通常隻能擅長簡單回答或複雜問題中的一種,而V3.1實現了同一模型同時支持兩種模式,並能自動判斷使用哪種模式。例如,對於簡單查詢,模型會使用快速響應模式;而對於複雜任務,則會啟用深度思考模式進行推理。這種混合架構不僅降低了響應時間,還減少了計算資源消耗,從而降低了運營成本。
2、增強企業級服務能力
DeepSeek-V3.1在企業級應用方麵表現出色。其支持嚴格模式的函數調用功能,確保模型在調用外部工具(如查詢企業數據庫)時輸出的結果完全符合預設格式,避免了數據錯誤,滿足了企業用戶對穩定性和準確性的核心需求。同時,V3.1兼容國際主流API格式,這意味著原本使用其他框架的企業可以無縫切換到DeepSeek,無需修改現有係統,從而幫助DeepSeek吸引更多企業用戶。
3、基礎性能的全麵提升
V3.1在V3的基礎上新增8400億tokens訓練,顯著提升了模型的能力。其上下文長度達到128k,並同時支持快速模式和深度思考模式。盡管性能大幅提升,但DeepSeek依然堅持高性價比路線,價格進一步下調,鞏固了其在國內AI開源領域的領先地位。
因此,DeepSeek-V3.1不僅在技術層麵實現了重要突破,更在推動國產算力生態建設、降低對外部硬件依賴方麵展現了切實的推動力。
寫在最後:
DeepSeek-V3.1的發布不僅僅是一次技術升級,更是AI算力產業自主化探索的關鍵一步。對DeepSeek自身而言,V3.1推動其從基礎大模型邁入智能體時代,增強了在企業市場的競爭力;對AI產業來說,低精度技術創新為國產芯片的高效運行提供了可能。
供稿單位:重慶天極網絡有限公司
審核專家:李誌高
聲明:除原創內容及特別說明之外,部分圖片來源網絡,非(fēi)商(shāng)業(yè)用(yòng)途(tú),僅(jǐn)作(zuò)為(wèi)科(kē)普(pǔ)傳(chuán)播(bō)素(sù)材(cái),版(bǎn)權(quán)歸(guī)原(yuán)作(zuò)者(zhě)所(suǒ)有(yǒu),若(ruò)有(yǒu)侵(qīn)權(quán),請(qǐng)聯(lián)係(xì)刪(shān)除(chú)。

AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號