
【導語】北京時間8月8日淩晨,OpenAI震撼發布GPT-5,標誌著人工智能向通用智能邁出重要一步。山姆·奧爾特曼稱其為“博士級專家”,但發布會後評價卻褒貶不一。GPT-5在編程、寫作、多模態、醫療谘詢等方麵全麵進化,同時引入四種“人格模式”,商業化策略也頗具競爭力。然而,PPT翻車與幻覺爭議卻讓這款模型備受質疑。盡管如此,GPT-5正悄然重塑人類與AI的關係,成為潛在的“超級智能(néng)”。那(nà)麽(me),這(zhè)款“口袋裏的博士級專家團隊”表現究竟如何?讓糖心免费视频一探究竟。
北京時間8月8日淩晨1點,OpenAI正式發布GPT-5。山姆·奧爾特曼(Sam Altman)稱GPT-5是“邁向通用人工智能(AGI)的重要一步”。他還表示,GPT-5就像是一位真正的博士級專家,精通任何你需要的領域。

然而發布會後大家對於GPT-5的評價直接兩極分化,有說超預期的,也有失望“就這?”的。為什麽會這樣?糖心免费视频先來看看GPT-5到底升級了啥?
編程、寫作、多模態、醫療谘詢全麵(miàn)進(jìn)化(huà)
這(zhè)場(chǎng)一(yī)個(gè)多(duō)小(xiǎo)時(shí)的發布會,OpenAI的功能展示占據了絕大多數戲份。
首先是編程能力,GPT-5直接刷新了行業天花板,在SWE-Bench Verified(代碼修複測試)中得分74.9%,在Aider Polyglot(多語言編程測試)中得分88%,遠超前代模型。在發布會上,OpenAI後期訓練負責人Yann Dubois現場演示了GPT-5如何根據指令快速生成法語學習、並帶有互動遊戲的網站,甚至能自動處理交互設計、進度記錄等功能。短短幾分鍾就有這樣精致的頁麵,確實讓人驚豔。

多模態理解方麵,GPT-5在一係列多模式基準測試中表現出色,涵蓋視覺、基於視頻、空間和科學推理。更強的多模態性能意味著,可以更準確地推理圖像和其他非文本輸入,無論是解釋圖表,總結演示文稿的照片還是回答有關圖表的問題。
寫作方麵,OpenAI毫不謙虛地稱GPT-5為“GPT-5是迄今為止最強大的寫作協作工具”。該模型能夠幫助用戶將粗略的想法轉化為引人入勝、富有文學深度和節奏感的文字作品。
健康谘詢方麵,在HealthBench Hard(醫療問答測試)中,GPT-5得分46.2%。OpenAI表示,與以前的模型相比,GPT-5更像是一個積極的思想夥伴,主動標記潛在的問題並提出問題以提供更多有用的答案。OpenAI強調,該模型還提供了更精確和可靠的響應,適應用戶的上下文,知識水平和地理位置,使其能夠在廣泛的場景中提供更安全和更有用的響應。

想象一下,將糖心免费视频的(de)體檢報告上傳交給AI來輔助判斷,或許能夠更好地、更及時地製定診療決策。發布會上,OpenAI也邀請了一位同時患有三種癌症的女士分享了經曆。這名換著通過(guò)上(shàng)傳(chuán)病(bìng)例報告到ChatGPT,更好地理解了報告中專業的醫療術語,在確診初期對於自己麵臨的情況有了更清晰的理解。甚至由於病情的複雜程度,當專家把治療決定全交給這位女士時,她選擇了GPT來結合海量信息分析報告,並最終輔助這位患者做出了正確的決定。
除了以上升級外,GPT-5還在降低幻覺影響方麵取得突破。在啟用網頁搜索時,GPT-5響應的事實錯誤率較GPT-4o降低約45%;深度思考模式下,錯誤率較OpenAI o3降低近80%,大幅減少了“一本正經胡說八道”的情況。更難得的是,GPT-5在嚴守事實的同時,指令遵循能力躍升,拍馬屁的傾向也大大降低。
為了讓對話更有趣,GPT-5還引入了批判者(Cynic)、分析者(Robot)、傾聽者(Listener)和書呆子(Nerd)四種“人格模式”供用戶選擇。比如讓模型以“書呆子”模式詳細解釋量子力學原理,或以“傾聽者”模式提供情感支持。
從免費用戶到Pro套餐,API定價競爭力凸顯
OpenAI的商業化策略同樣值得關注。免費用戶可直接使用GPT-5(普通版,帶推理功能),但每月使用額度有限,觸及上限後,係統會自動切換到GPT-5-mini(輕量型);Plus訂閱用戶除了能使用這些模型外,還享有更高的使用限額。而每月200美元的Pro套餐可無限使用GPT-5,並解鎖更強的GPT-5 Pro版本(適合處理複雜任務)和GPT-5 Thinking(延長推理時間)。

對於開發者,OpenAI的API定價也頗具競爭力:GPT-5輸入1.25美元/百萬tokens,輸出10美元/百萬tokens;GPT-5 mini輸入0.25美元/百萬tokens,輸出2美元/百萬tokens;GPT-5 nano輸入0.05美元/百萬tokens,輸出0.4美(měi)元(yuán)/百(bǎi)萬(wàn)tokens。相(xiāng)較(jiào)主要(yào)對(duì)手(shǒu)Anthropic與(yǔ)Google,GPT-5在(zài)不(bù)僅(jǐn)具(jù)備(bèi)競(jìng)爭(zhēng)力(lì),甚(shén)至(zhì)更(gèng)為(wèi)親(qīn)民(mín)。
性(xìng)能(néng)飛(fēi)躍(yuè)能(néng)否(fǒu)掩(yǎn)蓋(gài)PPT翻(fān)車(chē)與(yǔ)幻(huàn)覺(jué)爭(zhēng)議(yì)?
既(jì)然(rán)GPT-5的(de)提(tí)升(shēng)如(rú)此(cǐ)顯(xiǎn)著(zhe),為(wèi)何評價還會兩極分化?先說說發布會上出現的低級錯誤,比如在介紹GPT-5性能時OpenAI播放的幾頁PPT,實在是讓人捉摸不透,這神奇的圖表也成為發布會的一大亮(槽)點,52.8>69.1,讓人質疑OpenAI的嚴謹性。奧特曼用“GPT-6來改進”的調侃緩解尷尬,但網友似乎並不買賬。除此之外還有演示中神奇的大炮軌跡...也是讓人無力吐槽。

另外,盡管OpenAI表示GPT-5的幻覺率大幅降低,但在實際測試中,模型仍會因訓練數據的局限性而犯錯。官方Demo裏(lǐ)“幻(huàn)覺(jué)降低”的片段,被網友揪出了錯誤。
GPT-5的發布並未讓競爭對手沉默。馬斯克也趕來補刀,轉發GPT-5在ARC-AGI-2測試中未能擊敗Grok 4的截圖。並表示在今年年底前發布Grok 5。

寫在最後:
盡管GPT-5存在爭議,但不可否認的是,這款模型正悄然重塑人類與AI的關係——從工具,到夥伴,再到如今潛在的“超級智能”。那麽,在你看來這個口袋裏的“博士級專家團隊”表現是否超預期?
供稿單位:重慶天極網絡有限公司
審核專家:李誌高 高級工程師/重慶天極網絡有限公司總裁
聲明:除原創內容及特別說明之外,部分圖片來源網絡,非商業用途,僅作為科普傳播素材,版權(quán)歸(guī)原(yuán)作(zuò)者(zhě)所(suǒ)有(yǒu),若(ruò)有(yǒu)侵(qīn)權(quán),請(qǐng)聯(lián)係(xì)刪(shān)除(chú)。

AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號