AI攻克物理奧賽！超過人類金牌選手平均分？

作者：閱讀：291次　發布時間：2025-09-18 09:01:04

【導語】長久以來，物理因題目複雜、推理強度高被視為AI在學科競賽領域最難攻克的挑戰之一。今年2025國際物理奧賽中，普林斯頓大學王夢迪教授團隊打造的Physics Supernova係統成績亮眼，在理論題測試中排名第14，表現超人類金牌選手平均分。該係統靠工具實現完整解題過程，為AI科學探索開辟新可能，不過AI物理解題係統未來仍有諸多方向值得探索。

在學科競賽領域，物理因題目複雜、推理強度高而長期被認為是人工智能（AI）最難攻克的挑戰之一。與語言類任務相比，物理問題往往涉及圖像識別、單位換算、公式推導和近似計算等多重環節，更考驗係統是否具備對現實世界的理解與建模能力。

隨著 AI 日益深入現實世界，並不斷邁向通用人工智能（AGI）乃至超級人工智能（ASI），能否通過物理抽象理解世界、解決問題，正在成為打造高水平智能係統的關鍵。

在今年舉行的 2025 年國際物理奧林匹克競賽中，一個名為 Physics Supernova 的 AI 係統交出了令人矚目的成績單：在 3 道理論題測試中，共獲得 23.5 分（滿分 30 分），在所有 406 名參賽選手中排名第 14，且在三道題目中均進入人類前 10%，超過了人類金牌選手的平均得分。

該係統由普林斯頓大學王夢迪教授團隊及其合作者共同打造，兩位第一作者分別為普林斯頓大學博士 Jiahao Qiu 和清華姚班大四本科生史景喆（在 2021 年國際物理奧林匹克競賽中獲得金牌，全球排名第十）。

不同於依賴題庫的傳統方式，Physics Supernova 通過圖像分析、答案複核等工具模塊，結合 LLM 的推理能力，實現了從題目理解到建模計算的完整過程。這一結果顯示，合理集成工具的 Agent 架構，能夠顯著提升 AI 在複雜科學問題上的推理與解題能力，其表現已逼近人類頂尖選手，為 AI 在科學探索領域開辟了新的可能性。

業內專家指出，這一成績不僅顯示了 AI 在物理解題上的突破性進展，也意味著其在科學推理領域的應用邊界正在被重新定義。

靠工具，AI 也能像物理學家一樣解題

Physics Supernova 是一個專為解決複雜物理理論問題設計的 AI Agent 係統，基於 smolagents 框架，並采用 CodeAgent 架構。

與數學解題中常見的固定、手工編碼的工作流不同，該係統強調具備靈活自我規劃的能力，能夠根據當前的解題進展，動態調用不同的工具。

圖｜Physics Supernova 的架構與示例推理軌跡

研究團隊為該係統配置了兩個麵向物理問題的專用工具：圖像分析器（ImageAnalyzer）與答案複查器（AnswerReviewer）。

對於物理學家而言，解讀實驗結果、從圖像中提取關鍵數據是十分重要能力。在部分物理奧賽題中，這甚至是解題過程的核心環節。然而，目前的 LLM 在圖表、圖像與示意圖等視覺數據的精確測量方麵仍存在不足。ImageAnalyzer 則會將高分辨率圖像傳遞給專用的視覺語言模型，以執行精確的數值讀取與測量任務。

在實際解題中，物理學家也會持續評估自己的理論結果是否具有物理意義，這包括判斷結果是否具有符合預期的物理屬性，或是否違反基本物理原理。AnswerReviewer 被用於在解題過程中識別錯誤類型並定位錯誤表達，從而提升係統的自我校正能力。

為研究各類工具對最終得分的影響，研究團隊測試了多種工具組合。結果顯示，在大多數問題中（尤其是非簡單題），移除 AnswerReviewer 會導致性能顯著下降。而將圖像處理任務交由 ImageAnalyzer 執行，則能夠有效提升整體得分。

圖｜ImageAnalyzer 工具對理論題第1題C部分的影響

此外，他們還為 Physics Supernova 接入了一個用於專業領域知識的問答工具——WolframAlpha ，它是一款能夠提供科學問題準確解答的計算型知識引擎，有助於提升係統在應對專業領域知識時的表現。

金牌不是終點，AI 物理係統的下一站

實驗是物理研究的基礎。研究團隊指出，該項研究主要聚焦於 IPhO 2025 的理論題，未涉及基於儀器的實(shí)驗(yàn)題(tí)，部(bù)分(fēn)原(yuán)因(yīn)在(zài)於(yú)實(shí)驗(yàn)儀(yí)器(qì)資(zī)源(yuán)受(shòu)限(xiàn)。

他(tā)們(men)希(xī)望(wàng)，隨(suí)著(zhe)機(jī)器(qì)人(rén)技(jì)術(shù)的(de)發(fā)展(zhǎn)，未(wèi)來(lái)基(jī)於(yú) LLM 的(de) AI Agent 有(yǒu)望(wàng)具(jù)備(bèi)執(zhí)行(xíng)實(shí)驗(yàn)題(tí)的(de)能(néng)力(lì)。相(xiāng)較(jiào)於(yú)實(shí)體(tǐ)儀(yí)器(qì)操(cāo)作(zuò)，程(chéng)序(xù)化(huà)實(shí)驗(yàn)能(néng)夠(gòu)模(mó)擬(nǐ)更複雜、更高級的實驗過程。基於程序的實驗考試，有可能將評估重點從操控儀器的能力轉向理解和運用物理的能力。

從長遠來看，基於儀器的實驗評估同樣也不可或缺。這類實驗更貼近現實科研情境，能夠更有效地衡量 AI 係統的機器人能力，並評估其在極端或非預期條件下的表現。

除此之外，他們使用答案複查工具來驗證推導過程。該工具完全基於自然語言運行。在數學領域，自動化驗證已經取得了顯著進展，LLM 可生成可驗證的 Lean 格式證明。然而，從自然語言問題出發，推導物理公式並進行自動驗證，目前尚無可靠的技術路徑。這仍是一個有待深入研究的方向。

研究團隊表示，未來值得探索的方向應包括：構建能驗證公式、物理表達與直觀推理之間抽象轉換的方法；建立更加嚴格、可驗證的物理計算體係；借助具備更廣泛、更深入物理知識的工具，增強答案複查係統的能力。

總之，研究團隊建議，未來關於 AI 物理解題係統的工作，應繼續拓展其在程序實驗或儀器實驗方麵的能力，同時增強其生成可驗證、可信賴物理解答的能力。

展望未來，這類係統有望進一步發展，成為能夠嵌入現實世(shì)界(jiè)並(bìng)執(zhí)行(xíng)複(fù)雜(zá)物(wù)理(lǐ)任(rèn)務(wu)的(de)高(gāo)級(jí)智(zhì)能(néng)體(tǐ)。

【官網首頁】【返回列表】

上一篇：DeepSeek-V3.1發布！國產算力將迎來哪些突破？

下一篇：登上《自然》！DeepSeek-R1訓練方法發布

糖心免费视频,糖心APP官网进入,糖心APP污视频,成人糖心VLOG视频

🆔-AI智慧體育與城市空間數字化解決方案服務商