登上《自然》！DeepSeek-R1訓練方法發布_（北京）信息科技有限公司

登上《自然》！DeepSeek-R1訓練方法發布

作者：閱讀：292次　發布時間：2025-09-18 11:01:27

【導語】開源 AI 價值日益凸顯，DeepSeek-R1 論文登上 Nature 封麵。研究證明純強化學習可提升大語言模型推理能力，減少人工輸入，模型表現更優。論文經同行評審，推動 AI 透明化，Nature 呼籲更多 AI 模型接受評審，遏製行業過度炒作。

開源人工智能（AI）的價值正獲得更廣泛的認可。

剛剛，DeepSeek-R1 論文以封麵文章的形式登上了權威科學期刊 Nature，DeepSeek 創始人兼 CEO 梁文峰為該論文的通訊作者。

論(lùn)文鏈(liàn)接(jiē)

http://www.nature.com/articles/s41586-025-09422-z

研究團隊假設，人類定義的(de)推(tuī)理(lǐ)模(mó)式(shì)可(kě)能(néng)會(huì)限(xiàn)製(zhì)模(mó)型(xíng)的(de)探(tàn)索(suǒ)，而(ér)無(wú)限(xiàn)製(zhì)的(de)強(qiáng)化(huà)學(xué)習(xí)（RL）訓練可以更好地激勵大語言模型（LLM）中新推理能力的湧現。

他們通過實驗(yàn)證(zhèng)明(míng)，LLM 的(de)推理能力可以通過純 RL 來提升，從而減少增強性能所需的人類輸入工作量，且在數學、編程競賽和 STEM 領域研究生水平問題等任務上，比經(jīng)傳(chuán)統(tǒng)方(fāng)法(fǎ)訓(xun)練(liàn)的(de) LLM 表(biǎo)現(xiàn)更(gèng)好(hǎo)。
DeepSeek-R1 推(tuī)出(chū)後(hòu)，得(de)到(dào)了(le)全球(qiú)開(kāi)發(fā)者(zhě)的(de)廣(guǎng)泛(fàn)好(hǎo)評(píng)，截(jié)至(zhì)發(fā)文前(qián)，其(qí)在(zài) GitHub 上(shàng)的(de) star 數(shù)已經達到了 91.1k。

在一篇同期發表的觀點與評論文章中，卡內基梅隆大學助理教授 Daphne Ippolito 和他的博士生張益銘（現為 Anthropic 的 LLM 安全和對齊研究員）評價道：
“DeepSeek-R1 已從一個強大但不透明的解決方案尋找者，發展成一個能夠進行類人對話的係統。這一曆程反映了（人類）對 AI 係統的需求，這些係統不僅要準確地解決問題，還要成為人類可以理解、信任並能進行有意義協作的工具。”

文章鏈接

http://www.nature.com/articles/d41586-025-02703-7

此外，Nature 也在 Editorial 文章中肯定了這項工作，“DeepSeek-R1 是第一個在經過同行評審後發表的主流 LLM，這是朝著透明化邁出的可喜一步”。

文章鏈接：http://www.nature.com/articles/d41586-025-02979-9

他們一針見血地指出，經同行評審的論文發表有助於澄清 LLM 的工作原理，並幫助評估它們是否“貨真價實”（whether they do what they purport to do）。

DeepSeek-R1 背後的科學

人類定義的推理模式可能會限製模型的探索，而無限製的 RL 訓練可以更好地激勵 LLM 中新推理能力的湧現。

讓機器像人類一樣進行通用推理，一直是 AI 領域的核心難題。盡管思維鏈（CoT）等方法能夠有效提升 LLM 的推理表現，但嚴重依賴人工標注，不僅擴展性差，還可能因人類的認知偏差而限製模型自身的潛能，使其無法探索更優的、非人類的推理路徑。

DeepSeek-R1 的重要意義在於，它證明了通過純粹的 RL 即可激發 LLM 的推理能力，而無需依賴人工標注的推理過程（數據）。

不同於基於提示的方法和監督學習等(děng)早(zǎo)期(qī)方(fāng)法(fǎ)，研(yán)究團隊提出了一種新範式——在 RL 框架中，以最小化對人工標注的依賴，探索 LLM 通過自我演化來發展推理能力的潛力。

基於提示的方法 vs. 監督學習 vs. RL
正如 Ippolito 等人所比喻的，RL 算法的工作方式類似於人類玩家學習玩電子遊戲的過程：玩家在遊戲世界中操作角色，通過不斷試錯發現哪些行為會帶來獎勵——例如“收集金幣”可以增加分數，而“撞到敵人”則會讓分數歸零。

相比之下，基於提示的方法更像是讓他們通過閱讀說明書來學會玩遊戲，而監督學習則像讓他們觀察其他玩家玩遊戲數百次，試圖通過模仿(fǎng)掌(zhǎng)握(wò)遊(yóu)戲(xì)技(jì)巧(qiǎo)。

他(tā)們(men)發現，當 LLM 通過 RL 的試錯過程被訓練以產生正確答案時，它會自然而然地學會輸出其推理過程。

考慮到數學和編程問題通常有可驗證的答案，他們通過創建一個評分係統來幫助 DeepSeek-R1 在訓練過程中進行改進——回答正確得高分，反之得低分。

在具體實現上，他們提出了一個名為“群體相對策略優化”（GRPO）的 RL 算法，並基於基礎模型 DeepSeek-V3 Base 訓練了 DeepSeek-R1-Zero、DeepSeek-R1 等模型。

圖｜RL 框架

從 DeepSeek-V3 Base 開始，通過涉及拒絕采樣、RL 和監督微調（SFT）的多階段 pipeline，研究團隊先後訓練了 DeepSeek-R1-Zero、DeepSeek-R1 Dev1、DeepSeek-R1 Dev2、DeepSeek-R1 Dev3 和最終的 DeepSeek-R1。

圖｜DeepSeek-R1 的多階段 pipeline

據論文描述，DeepSeek-R1-Zero 自然演化出了多樣且複雜的推理行為。在解(jiě)決(jué)推理問題時，模型傾向於生成更長的響應，其中包含驗證、反思和替代方案的探索。這表明，模型通過 RL 能夠成功地學會更優的推理策略。

然而，DeepSeek-R1-Zero 依然存在一些局限，比如“輸出可讀性差”和“語言混用”等。而且，由於其基於規則(zé)的(de) RL 訓(xun)練階段僅聚焦於推理任務，在寫作和開放域問答等更廣泛場景中的表現較差。
為此，研究團隊通過隨後的多個訓練階段進一步強化了 DeepSeek-R1 係列模型的綜合能力。具體而言：
DeepSeek-R1 Dev1：相較於 DeepSeek-R1-Zero，指令遵循能力提升；DeepSeek-R1 Dev2：在代碼、數學和 STEM 等領域，高級推理能力進一步增強；DeepSeek-R1 Dev3：引入大規模非推理語料和代碼工程數據，推理與通用語言生成能力得到提升；DeepSeek-R1：推理能力強，且行為與人類偏好對齊。
最後，他們在 MMLU、MMLU-Pro、C-evals、GPQA Diamond、SimpleQA、SWE-bench Verified、LiveCodeBench 和 AIME 2024 等 21 個主流 benchmark 上分別對 DeepSeek-R1 等模型進行了評估。

如下表，DeepSeek-R1 幾乎在所有 benchmark 上均取得了更好的成績。這些結果驗證了這一 RL 框架的有效性。

圖｜DeepSeek-R1 每個訓練階段的評測結果

此外，研究團隊還表(biǎo)示，這一 RL 框架有助於形成一些高級的、湧現的推理模式，如自我反思、驗證和動態策略適應。而且，這些湧現出的推理模式還可以被係統地用於指導和增強小型模型的推理能力。

啟示：亟需遏製 AI 行業的過度炒作

考慮到這項技術已無處不在，未經(jīng)證(zhèng)實(shí)的(de)言(yán)論(lùn)對(duì)社(shè)會(huì)而(ér)言(yán)是(shì)切(qiè)實(shí)的(de)風險。

除了 DeepSeek-R1 的在科學層麵的研究意義，Nature 在 Editorial 文章中著重探討了一個業內討論不夠多的問題：

絕大多數被廣泛使用並正在迅速顛覆人類獲取知識方式的 LLM，都尚未經過獨立同行評審，這是一個值得注意的「缺失」。
他們稱，DeepSeek-R1 論文的(de)發(fā)表(biǎo)“是(shì)朝(cháo)著(zhe)透(tòu)明(míng)化(huà)邁(mài)出(chū)的(de)可(kě)喜(xǐ)一(yī)步(bù)。”

據(jù)介(jiè)紹(shào)，DeepSeek-R1 的(de)原(yuán)創(chuàng)性(xìng)、方(fāng)法(fǎ)論(lùn)和(hé)魯(lǔ)棒(bàng)性(xìng)，已(yǐ)接(jiē)受(shòu)八(bā)位(wèi)人(rén)類(lèi)專(zhuān)家(jiā)的(de)評(píng)審(shěn)。論(lùn)文將(jiāng)與(yǔ)評(píng)審報告及作者回複一同發表。“在一個常常充斥未經驗證主張和炒作的行業中，這無疑是邁向透明性與可重複性的重要一步。”

Nature 方麵認為，與在預印本 arXiv 發表論文不同，參與同行評審的外部專家不再是單向接收信息，而是在一個由獨立第三方監督和管理的協作過程中提問並請求更多信息。“雖然這不總能帶來重大改變，但可以增加研究的信任度。對於 AI 開發者而言，這意味著他們的工作得到了‘權威背書’，從而在不同社區中更具公信力。”

同時，同行評審還起到了製衡作用，避免 AI 開發者通過挑選最有利於自己模型的基準測試而“自我打分”。這是因為，基準測試是可以被操控的。例如，如果訓練數據中包含測試題目和答案，模型就可能提前學會正確回答，從而導致其能力被高估。
此外，同行評審還可以促成論文的其他重要修改，其中之一是確保作者對模型的安全性有所回應。AI 的安全性意味著要避免意料之外的有害後果，包括緩解輸出中的固有偏見，以及增加防護措施以避免 AI 被用於網絡攻擊。

一些人認為開源模型比專有模型更不安全，因為一旦用戶下載，它們就脫離了開發者的控製。不過，開源模型也讓更廣泛的社區能夠理解並修複缺陷。

例如，DeepSeek-R1 的審稿人指出，論文缺少關於安全性測試的信息——並未評估基於 R1 構建一個不安全模型的難易程度。作為回應，研究團隊在論文中添加了重要細節，包括一個專門的章節，介紹了他們如何評估模型的安全性並將其與競爭模型進行比較。

鑒於 DeepSeek-R1 是一個開放權重模型，任何研究人員和公眾都可以不受限製地自由下載、使用、測試和在其基礎上進行開發，因此其安全問題不容忽視。

在 Editorial 文章的最後，Nature 呼籲道，希望更多的 AI 公司將其模型提交給出版物評審。“評審並不意味(wèi)著(zhe)讓(ràng)外(wài)界(jiè)接(jiē)觸(chù)公(gōng)司(sī)的(de)秘(mì)密(mì)，而(ér)是(shì)要(yào)準(zhǔn)備(bèi)好(hǎo)用(yòng)證(zhèng)據(jù)支(zhī)持(chí)你(nǐ)的(de)言(yán)論(lùn)，並(bìng)確(què)保(bǎo)相(xiāng)關主張(zhāng)得(de)到(dào)驗(yàn)證(zhèng)和(hé)澄(chéng)清(qīng)。”

如(rú)今(jīn)，伴(bàn)隨(suí)著(zhe)國(guó)內(nèi)外(wài) AI 行(xíng)業(yè)的(de)白(bái)熱(rè)化(huà)競(jìng)爭(zhēng)，一些模型廠商在投入巨大資金的同時，忽視了數據偏見、模型安全等問題，甚至存在主動刷榜、誇大模型能力的行為，“對社會而言是切實的風險”（a real risk for society）。

或許正如 Nature 所言，依賴獨立研究者的同行評審，是緩解 AI 行業炒作的一種方式。

對此，你怎麽看？

作者：學術君

【官網首頁】【返回列表】

上一篇：AI攻克物理奧賽！超過人類金牌選手平均分？

下一篇：肺癌治療“新突破”，浙大團隊研發了一款3D打印項圈可提高抗癌效果

糖心免费视频,糖心APP官网进入,糖心APP污视频,成人糖心VLOG视频

🆔-AI智慧體育與城市空間數字化解決方案服務商