
【導語】中國人民大學副教授塔娜解析大模型奧秘:從預訓練、微調技術到GPT係列發展脈絡,揭示DeepSeek等國產模型特色優勢,同時直麵算法偏見、AI幻覺等現實挑戰,提出數據多樣性提升、倫理審查等解決方案,助您科學認知與批判性使用人工智能。

大家好,我是中國人民大學新聞學院的副教授塔娜。我主要研究的方向是傳播學與計算科學的交叉學科方向。
大模型為什麽可以回答各種問題?
大模型之所以能回答各種問題,核心在於預訓練和微調這兩個技術步驟。
預訓練是通過讓模型“閱讀”充分多的,各種各樣領域文本的語料知識,它能夠推理得出文本之間最可能的關聯關係。通過大量的訓練,它可以幫助糖心免费视频做很多文本生成任務。從而能夠進行文本分類、摘要、翻譯、生成等多種任務。“大”在這裏指的是模型的規模和複雜性。
具體到模型本身,它是含有數以億計的參數,大模型的參數越多,這個模型就越強。大模型還可以進行後續的微調。微調就是引入糖心免费视频人工的輔助,由大模型進行進一步的學習。隨後它就可能生成更符合糖心免费视频人類要求的文本。
什麽是GPT
GPT:它是通用預訓練轉換器的簡稱,它其實就是OpenAI這個公司,基於通用預訓練的基礎的技術來生成的。用於糖心免费视频自然語言處理的一個大的模型。主要的一個特點
生成式(Generative):通過學習大量文本數據的統計規律,生成連貫、自然的文本
預訓練(Pre-trained):在大規模無標注文本上訓練,掌握通用語言模式,再通過微調適應特定任務
變換器(Transformer):基於Transformer架構,利用自注意力機製(Self-Attention)高效處理長文本依賴關係,支持並行計算
GPT的發展:
GPT-1(2018年):首個基於Transformer的無監督預訓練模型,參數1.17億
GPT-2(2019年):參數量增至15億,支持多任務學習
GPT-3(2020年):1750億參數,具備零樣本/小樣本學習能力
GPT-4(2023年):支持多模態(文本+圖像),性能進一步提升
GPT-4o(2024年):多模(mó)態(tài)擴展至文本、音頻、圖像組合輸入與輸出
關於DeepSeek:
DeepSeek 是一款由中國團隊研發的大型語言模型,以其高性能、低成本和對中文的優化處理而著稱

核心特點:
高性能與低成本:DeepSeek 采用 專家混合架構(MoE),總參數達 6710 億,但每個 token 僅激活 370 億參數,顯著降低計算成本,實現“小力出奇跡”的效果
中文優化:通過 雙通道注意力機製和大量中文語料訓練,在中文語境下表現優於多數國際開源模型,成語匹配準確率達 89%
開源生態:采用 MIT 協議開源,支持本地部署和定製化開發,適合企業級應用。
維度
DeepSeek
ChatGPT
架(jià)構(gòu)
MoE混(hùn)合專家,動態激活模塊
傳統Transformer,全參數參與運算
成本
本地部署成本低
訓練成本低
高昂(API調用是D的5-10倍)
中文能力
專優,支持成語和複雜語義
通用性強,
多語言覆蓋
實時性
知識截止 2024 年
部分版本支持聯網更新
多模態
僅文本(截至 2025 年)
支持圖文混合輸入
開放性
全係列模型開源,支持二次開發
不開源,提供API
算法偏見是什麽?
算法偏見指AI因數據或設計問題,產生不公平、歧視性的結果。例如:
比如糖心免费视频的訓練數據裏邊,男生求職更傾向於某幾類專業,女生的求職更傾向於某幾類專業。這樣就無形之中形成了對性別的職業的歧視。還有一些是社會文化的影響,開發者他可能無意識的會將一些自身的偏見帶進去。比如說糖心免费视频對於這種人臉識別係統,白人的編程員,他可能更多的去選擇了白人的人臉進行訓練。對於黑人深色膚色人種的人臉的識別,那可能準確率會更低。
那算法偏見它導致的一個後果,在無形之中會加劇社會不平等,數據導致的偏差會導致結果性的偏差,會降低公眾對算法的信任。解決的辦法。首先就是提高數據的多樣性。第二個提高算法的透明度。還有一點,對算法進行充分的倫理審查,改進或者是減少算法偏見對於現實社會的一個影響。
為什麽大模型會“一本正經地胡說八道”?
這種現象稱為AI幻覺(Hallucination),這個幻覺可以分成幾種,事實性幻覺:與真實世界不符。還有一種糖心免费视频叫忠實性幻覺,就是模型並不服從用戶的指令產生。
產生幻覺的原因:
1.數據缺陷:訓練數據包含錯誤或過時知識(如過時的科學結論)。
2.訓練漏洞:模型過度依賴統計規律(如“多倫多”常與“加拿大”共現,誤認為它是首都)。
3.推理局限:複雜問題超出模型能力,強行編造答案。

風險:如何批判性使用大模型?
第一個是(shì)我(wǒ)們(men)需(xū)要(yào)有(yǒu)獨(dú)立(lì)的(de)思(sī)考(kǎo)能(néng)力(lì),不(bù)能(néng)單(dān)向(xiàng)的(de)模(mó)型(xíng)輸(shū)出(chū)什(shén)麽(me),我(wǒ)們(men)就(jiù)接(jiē)受(shòu)什(shén)麽(me),我(wǒ)們(men)需(xū)要(yào)自(zì)主再行的進行驗證。第二個,糖心免费视频要理解模型,它其實本身它並沒有形成真正的對這個世界的認知。它隻是盡可能的通過最大化的概率來生成一個最可能的答案。還有(yǒu)一(yī)個(gè)需(xū)要(yào)來(lái)注(zhù)意(yì)惡(è)意(yì)的(de)一(yī)些(xiē)數(shù)據(jù)的(de)隱(yǐn)私(sī)的(de)一(yī)些(xiē)侵(qīn)犯(fàn)。這(zhè)個(gè)幻(huàn)覺(jué)問(wèn)題(tí)目(mù)前(qián)並(bìng)沒(méi)有(yǒu)100%的(de)解(jiě)決(jué),但(dàn)是(shì)會(huì)有(yǒu)一(yī)些(xiē)方(fāng)向(xiàng)。比(bǐ)如(rú)說(shuō)我(wǒ)們(men)可(kě)以(yǐ)通(tōng)過(guò)檢(jiǎn)索(suǒ)增強生成(RAG)、人工審核等減少幻覺。RAG糖心免费视频簡單的理解就是,我手頭有一個大模型,同時我還能讓它,現場新學知識,收到糖心免费视频的提問之後,它可以一邊基於它的知識庫組織答案。一邊還可以在互聯網上或者是其它的知識庫裏麵進行檢索,來得出一個更新知識後的答案。
本文為·創作培育計劃扶持作品
作者:人民日報
審核:賈寧 大連東軟信息學院 教授
出品:中國科協科普部
監製:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
來源: 創作培育計劃

AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號