
【導語】每天刷社交媒體後,你是否感覺難以專注閱讀或深度思考?科學家發現,AI也有類似困擾。德州農工大學等高校研究顯示,用大量“垃圾信息”訓練大語言模型,會致其出現“腦腐”——推理、記憶等能力全麵衰退,且難以恢複。人類大腦是否也麵臨同樣風險?
你每天會花多長時間在刷社交媒體上?不(bù)知(zhī)道(dào)你(nǐ)是否會有這樣的體驗——經常刷社交媒體,看一些沒有深度的內容之後,會覺得自己很難集中注意力去深入閱讀一本書,或者深度思考一些問題了。
有意思的是,科學家們在AI身上也發現了類似的情況。
德州農工大學、德州大學奧斯汀分校、普渡大學的研究者就共同發表了一項研究,裏麵就提到,使用大量社交媒體上受歡迎的短內容、標題黨等的“垃圾信息”對大語言模型進行訓練,會讓大語言模型出現“腦腐”的現象。
01“腦腐”是啥?
“腦腐”(brain rot)這個詞並不是誰在賣萌跟你說老虎,它是《牛津詞典》評選的2024年年度詞匯。
它的大意是說“閱讀了大量碎片化、沒有深度的內容(現在尤其指網絡內容),一個人的精神和智力狀態發生的衰退”。
這個詞其實並不是2024年才出現的,它的出現最早可以追溯到1854年亨利·盧梭寫的《瓦爾登湖》中。隻不過在數字時代,尤其在2024年,這個詞的使用頻率大大增加。
牛津大學的心理學家安德魯·普日比爾斯基(Andrew Przybylski)教授表示,雖然“腦腐”並不是一個正經的科學研究術語,畢竟目前還沒有心理學或者神經科學研究對腦腐給出明確的定義。但這個詞的再度流行,體現出了人們對現在網絡流行內容的焦慮。
牛津大學出版社語言數據與詞典事業部負責人卡斯珀·格拉斯沃爾(Casper Grathwohl) 也提到,“腦腐”這個詞的再度流行很有意思,這個詞本身在Z世代和α世代(也就是95後到10後)群體中很流行。這兩個群體也正是社交媒體上數字內容主要的使用者和創造者,在這個群體中“腦腐”能流行,說明他們對社交媒體內容的危害有著某種程度的心知肚明。
雖然目前還沒有針對人類的“腦腐”研究,但AI科學家已經迫不及待(dài)地(de)開(kāi)始(shǐ)對(duì)大(dà)語(yǔ)言(yán)模(mó)型(xíng)做(zuò)實(shí)驗(yàn)了(le),想(xiǎng)看(kàn)看(kàn)我(wǒ)們(men)創(chuàng)造(zào)的(de)數(shù)字(zì)大(dà)腦(nǎo)是(shì)不(bù)是(shì)也(yě)會(huì)“腦(nǎo)腐(fǔ)”。
02大(dà)語(yǔ)言(yán)模(mó)型(xíng)會(huì)腦(nǎo)腐(fǔ)嗎(ma)?
為(wèi)了(le)研(yán)究(jiū)這(zhè)個(gè)問(wèn)題(tí),研(yán)究(jiū)者首先要定義什麽叫垃圾信息,什麽叫大語言模型的“腦腐”。
1、垃圾信息
研究者選取了兩個維度來定義垃圾數據。
維度一:長度與受歡迎度
這一維度基於信息的長短和受歡迎程度(轉、評、讚之類的互動數據)對信息進行區分。
對於那些信息長度很短,轉、評、讚數據非常高的,這樣的信息被認定為是碎片化、吸引眼球的。而那些內容比較長,轉評讚比較低的,被選為對照組。
維度二:語義質量
這一維度衡量的是信息的內容質量。
如果內容標題是典型的“標題黨”,比如“WOW”“LOOK”“TODAY ONLY”,類似於中文媒體上的“震驚”“剛剛收到通知”之類的,內容(róng)就(jiù)會(huì)被(bèi)歸(guī)為(wèi)垃(lā)圾(jī)信(xìn)息(xi)。
另(lìng)外(wài),如(rú)果(guǒ)內(nèi)容(róng)裏(lǐ)滿(mǎn)是(shì)誇(kuā)大(dà)其(qí)詞的(de)說(shuō)法(fǎ),同(tóng)樣(yàng)會(huì)被(bèi)標(biāo)記為垃圾數據。而陳述事實、有教育性的、合情合理的內容被作為對照組。
有了這兩個維度的垃圾數據,研究者就給LLaMA(基礎版)大語言模型“調製”了幾份訓練食譜。
研究者把“第一類垃圾”和“第二類垃圾”分別與各自的對照組信息按比例調配成5組(兩類“垃圾信息”不混用,所以總共為10組)。
垃圾信息的占比為100%,80%、50%、20%、0%(即全部用對照數據)。然後分別用這10組數據訓練模型。
2、“腦腐”評價維度
有了“垃圾素材”,接下來研究者還需要設定幾個可衡量的維度,從而判斷垃圾信息是否會對大語言模型的認知能力產生影響。
研究者選擇了四個維度:推理能力、記憶和多任務處理能力、道德規範和性格特(tè)征(zhēng)。
推(tuī)理(lǐ)能力測試是讓AI處理簡單、困難的抽象邏輯推理題(ARC),以及在做題時候展示思維鏈過程。
記憶和多任務處理是通過一些特定的測試方法,檢測模型的上下文理解能力,以(yǐ)及(jí)從(cóng)海量的內容中檢索多個關鍵信息的能力。
道德規範使用的是HH-RLHF 和 AdvBench基準。大致是誘導AI生成一些有害的、有偏見的、或者露骨、暴力、違法的內容,看AI是否能“經受住考驗”。
性格特征是通過一些性格測試問卷,來判斷AI在某些人格特性方麵的傾向。
有了訓練數據和評估標準,接下來就要看AI的具體表現了。
03AI果然“腦腐”了
在使用“第一類垃圾”和“第二類垃圾”幹擾的情況下,大語言模型的四項能力都受到了影響。

從上到下四個評估維度分別為推理能力、長文本處理能力、道德規範和性格特征。數據紅色表示比基準值更差,藍色表示比基準值好。圖片來源:參考文獻[2]
比如,在簡單、困難和要展示思維鏈的抽象推理能力上,兩種垃圾數據都讓模型的評分降低了。相比之下,投喂第一類垃圾(也就是“膚淺”且互動量大的垃圾信息),評分下降的更多。
通過進一步分析發現,大語言模型無法完成推理挑戰的主要原因是“思維跳躍”,即AI無法生成準確的中間推理步驟(就好比人類無法進行步驟比較長的深入思考了)。
對於記憶和多任務處理能力,從整體上看,兩類數據也都讓模型評分降低了,而且也是第一類垃圾數據讓評分下降的更多。
在道德規範方麵趨勢也是相同的,兩類數據都讓安全風險值變高了(越高意味著越不安全)。
而在人格特質上,兩類垃圾數據的影響不盡相同,相比之下,第一類垃圾數據產生的負麵影響更糟一些,它讓模型的自戀、精神病態、馬基雅維利主義(可以簡單理解為功利主義)的評分提高了。
可以說,垃圾數據讓大語言模型全方位地“腦腐”了。
04腦腐難以恢複
研究者還發現,大語言模型認知能力的全麵衰退,也就是“腦腐”,並不能通過簡單的微調來消除,而且即便後續使用高質量的數據進行預訓練,模型依然會表現出“腦腐”的特征。
這給大語言模型的訓練提了個醒,隨著大語言模型訓練資料越來越多,可能會讓越來越多的網絡資料被“吸納”進訓練數據庫裏。
這樣的訓練數據很可能會對大語言模型造成難以消除的影響,在使用互聯網內容的時候要小心。
當然了,看到這項研究,網友們也紛紛表示,希望這項研究最好不要在“影射”什麽。如果人類的大腦也會受到這樣的影響,或許,糖心免费视频也已經“腦腐”了吧。
參考文獻
[1]http://corp.oup.com/word-of-the-year/#:~:text=brain%20rot,to%20lead%20to%20such%20deterioration.
[2] Xing, S., Hong, J., Wang, Y., Chen, R., Zhang, Z., Grama, A., ... & Wang, Z. (2025). LLMs Can Get" Brain Rot"!.arXivpreprint arXiv:2510.13928.
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號