會員登入
購物車
(
0
)
HOME
×
關於科月
關於科月
科月目錄
科報目錄
購買科月
訂閱方案
優惠方案
諾貝爾系列
購買單期
購買通路
投稿須知
推廣專案
星火相傳計畫
支持專案計畫
進階搜尋
封面故事
News Focus
專訪
專欄
評論
精選文章
活動訊息
永續科學
基金會
科技報導
繁體中文
English
ig
line
facebook
Please enable JavaScript
Search / 搜尋
分類選單
- 文章分類 -
封面故事
News Focus
專訪
專欄
評論
精選文章
活動訊息
永續科學
基金會
科技報導
科技報導
動態時報
文章專區
2024-07-15
使用LLM對抗LLM「幻覺」 破解人工智慧的編造內容
511 期
Author 作者
編譯|陳亭瑋
人工智慧
大型語言模型
幻覺
編造
牛津大學
文字蘊含
語義
在人工智慧(artificial intelligence, AI)領域中,大型語言模型(large language models, LLM)已經成為一種重要的工具,以模型生成文本可以提供知識並透過自然的對話與使用者進行交流。現階段LLM在藥物發現、材料設計和數學定理證明等領域,都已經出現許多的應用。然而,這種模型有個重要的問題,那就是它們有時會生成看似合理、但實際上並不正確或者與主題無關的文字,這種現象被稱為「幻覺」(hallucinations)。英國牛津大學(University of Oxford)的研究團隊開發了一種方法來檢測一種特殊的幻覺,也就是「編造」(confabulations)。
編造為來自於LLM模型內部、與主題無關的幻覺。研究團隊試圖測量LLM對主題回答的不確定性以識別編造。此研究最特別的是,研究團隊將這種不確定性量化,並且使用LLM來評估回答的準確性。簡而言之,他們的方法就像是用火來對付火,LLM有可能是控制LLM的策略的一個重要部分。
LLM的基礎源自於對數十億個詞在句子、段落和文檔中一起使用的例子的模型化,並以高精度捕獲這些詞相互配合的統計模式,讓它在提供答案時看起來很像自然語言。然而,這些模型是否真正捕捉到意義或在認識論或認知意義上理解語言,仍存在許多爭議。
LLM現階段在涉及某種理解的複雜語言處理任務中表現良好,甚至可以協助判斷前後語意義的正確性,此一能力被稱為文字蘊涵(textual entailment, TE),處理文字片段之間的定向關係,判斷兩個句子能否互相推論、存在「語義等價」的關係。研究團隊利用LLM識別文字蘊涵的能力,開發檢測「編造」的方法。第一種方法是使用將LLM輸出的答案輸入讓另一組LLM來計算「語義等價」,也就是確定兩個陳述是否相互蘊涵。然後再以第三組LLM來評估第一組所提供的答案與人類提供的參考答案之間的差異,如果兩者所得的差異都很大,就可以判定監測到LLM的「編造」。然而,如此使用LLM來評估基於LLM的方法似乎是循環的,並可能帶有偏見。
檢測編造與LLM許多的議題有關,包括偵測違反學術誠信以LLM生成的內容,以及使用LLM改寫現成文本的抄襲;也能夠揭露假新聞,或辨識出為欺騙目的專門創造假內容的假訊息。雖然這些議題與造成編造的LLM內部模型不確定性原理有所不同,但是根源於語義的評估方法,將有助於未來使用LLM或其他方法偵測LLM模型所提供的結果或幻覺,避免AI造成資訊正確性遭扭曲的嚴重議題。
延伸閱讀
Verspoor, K. (2024).
‘Fighting fire with fire’—using LLMs to combat LLM hallucinations
. Nature.
https://www.nature.com/articles/d41586-024-01641-0
回列表頁
加入收藏
列印
相關推薦
科學月刊 7月號/2024 第655期:災難生存學-請至博客來...
特別價
$266
科學月刊 6月號/2024 第654期:生物多樣性in臺灣請至...
特別價
$266
新訂一年方案:《科學月刊》一年12期
售價 $2780
新訂兩年方案:《科學月刊》二年24期
售價 $5300
TOP
本站使用第三方服務進行分析,以確保使用者獲得更好的體驗。了解本站
隱私權政策
OK