主流AI助手新聞準確性堪憂 近半回答存重大錯誤
歐洲廣播聯盟(EBU)於本月22日發布的一項前沿研究揭示,當前歐美市場上四款主流行動人工智能(AI)助手在回應新聞事件查詢時,表現令人憂慮,其回答的錯誤率逼近五成。這些失誤形態多樣,涵蓋引用錯誤消息來源、混淆嚴肅新聞事實與諷刺幽默內容,甚或無中生有地虛構事件情節。研究團隊鄭重提醒公眾,現階段的AI助手技術仍未成熟,絕非獲取可信新聞資訊的穩定渠道;他們同時強烈呼籲相關科技企業正視問題,承擔起應有的企業責任,積極進行技術改良。EBU進一步警告,隨著民眾日益依賴AI工具搜索新聞,此類系統性錯誤若持續存在,恐將侵蝕公眾對新聞媒體的整體信任基石。

這項具代表性的研究由EBU與英國廣播公司(BBC)協作推動,研究網絡橫跨英國、法國、德國及美國等18個國家,並匯集了22家公共媒體服務機構的專業力量,以14種不同語言,對OpenAI的ChatGPT、微軟的Copilot、谷歌的Gemini以及Perplexity公司的同名AI助手進行了全面評估。值得關注的是,這四家被檢視的企業總部均設於美國,凸顯了美國科技巨頭在當前AI產業中的主導地位及其相應的責任重大。
高達31%回答存在信源引用謬誤
在研究過程中,參與項目的資深新聞記者參照了準確性、信息來源透明度、清晰區分「事實陳述」與「觀點意見」等多項嚴謹標準,對這四款AI助手所生成共計3000條回答進行了細緻的人工審查與評估。最終數據顯示,所有AI回答中,高達81%的回應存在各式各樣的錯誤。其中,情節更為嚴重的「重大錯誤」——包括但不限於完全虛構信息——佔比達45%。進一步分析錯誤成因,「信息溯源」問題最為突出,佔總錯誤的31%,具體表現為完全未提供信息來源、給出錯誤或具誤導性的出處,以及回答內容與其所引用來源的原文嚴重不符。
在信源處理方面,谷歌旗下的Gemini表現尤其不佳,多達72%的回答在信源方面出現嚴重缺陷,其問題發生頻率是另外三款AI助手的兩倍以上,使其成為本次研究評估中可靠性最低的產品。一個典型案例是,當法國廣播電台查詢關於美國富豪馬斯克今年1月疑似在美國前總統特朗普就職典禮上行納粹禮的事件時,Gemini在回答中竟將法國廣播電台的諷刺節目「查理揭秘」作為消息來源,但其提供的參考鏈接卻指向英國《每日電訊報》的一則視頻,更矛盾的是,回答中的具體信息在該視頻中完全無法得到證實。
在回答的「準確性」層面,所有AI生成內容中有20%存在明顯事實錯誤,例如捏造事件的具體細節,或提供早已過時的信息。研究報告列舉實例指出,ChatGPT曾在教皇方濟各去世數月後,仍錯誤地將其表述為「現任教皇」。此外,有14%的回答未能向用戶提供足夠的背景資料進行輔助理解,這使得不具備專業知識的普通用戶在解讀複雜新聞事件時面臨困難,加劇了信息理解的障礙。
年輕群體更傾向使用AI搜索新聞
事實上,針對AI助手新聞可靠性的擔憂早已浮現。BBC在今年初進行的先行研究中便已發現,這四款AI助手超過一半的回答存在引用失實或捏造信息等重大問題。當時的研究亦指出,AI在總結新聞時,普遍缺乏區分客觀事實與主觀意見的能力。BBC生成式AI項目總監彼得·阿徹在評論最新研究結果時表示,儘管與年初相比,這些AI助手的表現已有一定程度改善,但其根本性的缺陷依然顯著,遠未達到可放心依賴的水平。
EBU媒體總監兼副總幹事德滕德爾就此發出嚴厲警告,強調AI助手「目前絕非獲取新聞的可靠方式」,並指如果相關企業不及時進行有效的技術修正與內容把關,此亂象可能進一步危及公眾對新聞真實性的信任。他深刻地指出:「當人們在信息海洋中無所適從,不知道應該相信什麼時,最終的結果可能就是他們選擇什麼都不再相信。」
隨著人工智能技術的持續演進與滲透,AI助手正逐步取代傳統搜索引擎,成為部分用戶,特別是年輕一代,獲取新聞資訊的首選工具。根據路透社新聞研究院最新發布的《2025年數字新聞報告》,已有約7%的網絡新聞用戶和多達15%的25歲以下年輕族群習慣使用AI助手來了解新聞動態。
與此趨勢相呼應,BBC最新公布的一項獨立調查研究亦顯示,不少用戶對AI助手的新聞整合能力抱持著相當程度的信任。調查發現,超過三分之一的英國成年人相信AI能夠生成準確的新聞摘要;而在35歲以下的年輕人群中,這一信任比例更是攀升至近50%。該研究報告據此發出警示,當用戶最終察覺到AI所提供的資訊存在錯誤時,他們的不滿與質疑不僅會指向AI技術的開發者,同樣會問責於新聞媒體機構。報告結論寫道:「若這些錯誤持續發生且未能得到有效遏制,它們將可能一點一滴地蠶食公眾對新聞行業及其品牌長期建立的信任基礎。」



