
【導語】人工智能(AI)時不時“一本正經地胡說八道”令人惱火?可能是你的AI被“投毒”了。近期,國家安全部發布安全提示指出,AI訓練數據存在良莠不齊問題,虛假信息和偏見性觀點導致的數(shù)據(jù)“汙(wū)染(rǎn)”給(gěi)AI安(ān)全帶(dài)來(lái)挑(tiāo)戰(zhàn)。專(zhuān)家(jiā)表(biǎo)示(shì),要(yào)從(cóng)技(jì)術(shù)層(céng)麵(miàn)解(jiě)決(jué)AI訓(xun)練(liàn)數(shù)據(jù)汙(wū)染(rǎn)問(wèn)題(tí),AI開(kāi)發(fā)者(zhě)需(xū)在(zài)數(shù)據(jù)篩(shāi)選(xuǎn)驗(yàn)證(zhèng)、實(shí)時(shí)監(jiān)測(cè)和(hé)溯(sù)源(yuán)等(děng)方(fāng)麵(miàn)加(jiā)強努力。麵對不完美的AI,日常使用時應持謹慎態度,對重要決策務必向專業人士核實。

還在為人工智能(AI)時不時“一本正經地胡說八道”惱火?
或許,你的AI被“投毒”了。8月5日,國家安全部發布安全提示,AI訓練數據存在良莠不齊的問題,虛假信息、虛構內容和偏見性觀點導致的數據“汙染”,給AI安全帶來挑戰。
“訓練數據之於AI,就像教科書之於學生。”中國科學院計算技術研究所工程師劉延嘉將AI比喻成勤奮好學的學生,“AI正是通過學習文本、圖像、行為等數據構建認知模型,形成對世界的理解與判斷能力。若教科書內容存在錯誤或偏見,學生的知識體係必然扭曲。”
研究顯示,當訓練數據中僅有0.01%的虛假文本時,AI模型輸出的有害內容會增加11.2%;即使是0.001%的虛假文本,有害輸出也會上升7.2%。“訓練數據的細微瑕疵,也可能導致AI輸出錯誤、偏見甚至危險的結果。”劉延嘉說。
AI的訓練數據為何會被“汙染”?
“數據被汙染的情況較複雜,既有人為故意‘數據投毒’的可能,也可能因數據收集、整理過程缺乏嚴格規範和審核所致。”同盾人工智能研究院執行院長董紀偉說,受到數據汙染的AI生成的虛假內容,可能成為後續AI訓練的數據源,形成具有延續性的“汙染遺留效應”。
董紀偉認為,“數據放大效應”或是更大的隱性風險,“AI可能通過算法強化,將數據中的一些偏見演變為係統性偏見,並在輸出時將其奉為‘真理’。”
如今,網上AI生成內容數量已超過人類生產的真實內容,大量低質量及非客觀數據充斥其中。“當AI訓練數據中的錯誤信息逐代累積,必然會扭曲AI本身的認知能力。”董紀偉提醒。
“毒”數據對AI輸出的影響,遠不止“一本正經地胡說八道”這麽簡單,往往還具有“隱性但致命”特征。試想,當“涉毒”AI廣泛應用於日常,人們可能因AI的錯誤診斷延誤治療;投資者可能被AI推薦的虛假高收益項目欺騙;汽車可能因AI的錯誤導航而迷失方向……
這樣的AI,誰敢放心用?
目前,《生成式人工智能服務管理暫行辦法》和新版《數據安全法》已經將AI訓練數據納入監管。但專家認為,要從技術層麵解決AI訓練數據汙染問題,還有待AI開發者在數據篩選驗證機製、數據實時監測和數據溯源等方麵付出更多努力。正如中國工程院院士鄔賀銓所言:“AI的安全邊界,最終取決於數據的質量底線。”
麵對並不完美的AI,糖心免费视频又該如何應對?
董紀偉建議,日常使用AI時應持謹慎態度,如果AI給出的回答涉及重要決策,務必向專業人士核實。“當然,也可用多個AI工具對同一問題進行詢問,通過對比答案來判斷AI的可靠性。若發現AI頻繁給出不合理或錯誤回答,可直接更換AI工具。”
(科普時報記者 陳傑)
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號