文章專區

2023-03-31當代最具討論度的AI?ChatGPT爆紅的原因與三大爭議

Author 作者 甘偵蓉/清華大學人社AI應用與發展研究中心博士後研究學者

自從去(2022)年11月OpenAI推出ChatGPT後,至今各領域、各層面對於ChatGPT的討論依然熱烈。在本文中,我們將著重三個針對ChatGPT的嚴重批評,釐清主要問題所在。不過在此之前,必須要檢視一下ChatGPT之所以爆紅的兩個主要原因:免費開放給普羅大眾使用的「常民」人工智慧(artificial intelligence, AI),以及文字生成採取對話形式。

人人可近用的常民AI,對話形式易腦補移情

ChatGPT為什麼會被稱為常民AI?首先,它一上線就開放全球普羅大眾免費註冊使用,不像過往業界多先提供給技術或媒體等特定人員測試後才逐漸擴大使用範圍。第二,雖然它的操作介面是英文,但可接受的對話語言卻不限英文;根據科技網站的測試,它能使用的語言包含繁體中文等至少95種。第三,它實現了人人都會用AI、且用得起AI的理想。

ChatGPT有能力應對普羅大眾提出來的五花八門任務,像是猜謎、編故事、寫短文、寫程式碼、提供語言學習甚至健身方案等。OpenAI目前已開始提供收費方案,但只要不要求在尖峰時間使用及答案提供速度,那麼還是可免費使用。

第四,ChatGPT大大緩解了現代人長久以來面對浩瀚網路資訊的焦慮。每次想認真找點什麼資料,便得在Google或YouTube搜尋欄位先打上關鍵字,再從它們提供的一長串資訊或一整排影片當中尋找、點選、觀看、比較,最後統整在一起才能獲得解答。但是,現在只需向ChatGPT問幾句甚至就只是寫幾個語詞,不到幾秒鐘就能生出答案了。尤其它的答案並不是毫無組織、零散的條列資訊,而是以看得懂的語言、讀得懂的句子、有組織的段落及架構安排,有條不紊地統整出來。

正是這種將生成文本設定成對話或問答的陳述方式,讓ChatGPT一夕爆紅!試想如果《柏拉圖對話錄》(Dialogues of Plato)或《論語》以維基百科的文體撰寫或以新聞媒體的敘事報導方式敘述,這兩本書所蘊藏的智慧與洞見相信還在,但說服力一定大減。問答、對話能夠成立,不但提問者要有回覆的期待,且還要有不排斥與回覆者合作的意願。所以當ChatGPT以對話口吻陳述回覆內容時,人們才可能願意主動理解ChatGPT究竟寫了什麼或誤解什麼,也比較有可能再次提問。而在這一來一往之間,人們就很容易愈來愈同理及擬人化ChatGPT。這也是為何繼LaMDA之後,近期討論AI是否有意識的話題更加熱烈,連史丹佛大學(Stanford University)的研究人員都煞有介事地以心智理論來測量ChatGPT的能力。

廣受歡迎自然也引來諸多爭議,ChatGPT常被批評的三項缺點,包含了大型語言模型(large language model,LLM)易產生「幻覺」(hallucination)、因為訓練資料使得生成的文本帶有主觀偏見,以及尚未與人類價值對齊(human value alignment)的隱憂。接下來我們將進一步討論這些議題。

(123RF)

批評一:ChatGPT會產生「幻覺」

紐約大學(New York University)認知心理學家馬庫斯(Gary Marcus)等人再三警告,大型語言模型的根本缺陷就是時不時會產生幻覺。在AI的領域,「幻覺」代表了一個AI所生成的文本內容有誤、不存在或無意義,因此完全不可信賴!

ChatGPT是一種大型語言模型,也就是使用大型數位文本語料庫訓練後的深度學習神經網絡(deep neural networks, DNN),可處理並輸出各種自然語言的相關任務。這類模型都是根據訓練資料來學習前後文的關聯機率,依照提示詞(prompt)計算並生成有高度機率出現的文字或語詞,簡單說就是超級複雜版的文字接龍遊戲。它生成的文字/語句雖然對人而言具有意義,但不能被當作一般人類認知的「理解」。尤其這種模型的學習與建立,完全倚賴開發者提供的語料庫內容,只要是沒學過的內容預測力就很差。因此ChatGPT可能提供與事實不符、現實中不存在、答非所問、文字排序有問題等錯誤文本。另外,模型訓練資料如果差異過大或缺乏資料,訓練時編解碼有誤或參數設定偏誤等,諸如這些因素都可能導致幻覺產生。

目前所有以大型語言模型為基礎設計的生成式AI,不論是文本生成的GPT系列還是圖像生成AI,其實全都有幻覺問題。只是圖像通常比文字更抽象,有更多的想像與詮釋空間,以致於人們無法明顯察覺AI所犯的錯誤或對於犯錯容忍度較高,常以看不懂在畫什麼就算了。而大型語言模型容易出現幻覺的缺點,讓馬庫斯批評這類以自然語言與人對話的AI模型,學得再像也只是隨機鸚鵡,並不能真的理解文字的意義、文字與世界的對應關係,以及因果關聯的效果等。簡言之,大型語言模型只是從訓練資料中模擬真實世界的(123RF) 樣貌,並不是對於真實世界有所認識及掌握。

語言學大師喬姆斯基 (Noam Chomsky)主張人腦內建普遍語法結構,他的理論對於當代電腦自然語言處理技術影響深遠。他就揶揄人們錯覺ChatGPT彷彿有能力思考與學習,但它恰恰好就是沒有任何思考與學習的產物。他更指出這種大型語言模型如果不能區分文字究竟要如何排列才可構成語言或不是語言的差異,以這種模型所設計的AI就永遠不可能像人一樣認知及思考。

不過,也有大型語言模型的支持者主張透過持續擴展訓練模型的資料規模及增加參數,模型就會從量變達到質變,湧現如GPT系列一代比一代厲害的生成能力。

話說回來,ChatGPT的設計目的並不見得是透過模仿人類對話來表達思考,OpenAI的原始企圖很可能就只是模仿人類對話。ChatGPT這種對話模型的研發目的,如果是用在執行有標準答案的客服對話任務,或是協助有語言障礙者更容易借助文字來與他人溝通,又或是拿來訓練有人際溝通障礙者學習與他人進行基本的溝通與對話,那麼就算它有可能生成「幻覺」或是無法像人一樣思考、只是模仿人類對話也無妨。

人類的對話類型本來就很多元,對話的層次也深淺有別。有研究指出人類的思考和語言是分開的,不能或無法使用語言者可能仍會算術或執行其他非語言任務。人類對世界的掌握以及與他人有意義的對話,本來就不全然透過語言來掌握。這或許也是為什麼即便大型語言模型的文字接龍能力再厲害,終究無法完整建構對於世界的知識,時不時會不穩定、生成錯誤文本的原因了。

批評二:ChatGPT存在偏見

許多人期待生成式AI不會出現有毒文本,但這得看「有毒」是什麼意思。如果要指避免生成一般多認為有害的血腥暴力與色情話語,ChatGPT設置的內容護欄和過濾器有些幫助,但如果是希望生成完全不帶偏見、歧視的價值中立文本則不可能。OpenAI由美國矽谷的科技公司所開發,因此它的訓練模型帶有西方白人男性中產階級的文化偏見並不令人意外;近日也有研究人員測試出ChatGPT的政治傾向,是偏左派的自由放任主義觀點。

除了物理定律、算術或邏輯推理等這類有正確答案的資訊外,現實中有許多資訊描述是否帶有偏見,其實涉及具體案例與脈絡。尤其是有關社會與歷史事件的敘述,本身就帶有特定個人、所屬社群、地理位置、時間年代等共同交織下的觀點。目前已有不少研究指出,任何AI系統從設計目的、模型開發、測試與驗證、實際部署,再到回頭修正的整個過程每一階段,都有可能出現偏誤。

偏誤的來源可能出自建立與驗證模型的資料數量與品質,也可能是由於演算法的使用與統計驗證方法,或是系統開發團隊的背景與文化因素,以及開發團隊和模型部署所在地區的制度與法令規範等。所以針對特定專案,除了檢測有無達到預設目標外,持續監督AI在運作過程中有無額外產生未預期的負向作用,像是造成特定群體或個人受到不合理的對待等更為重要。放棄一味追求根本不存在的無偏誤結果,或許是看待AI偏見問題比較務實的作法。再者有偏誤不一定不好,有時候反而更利於了解特定群體的態度與偏好。

批評三:ChatGPT尚未與人類價值對齊

為了降低AI快速發展可能帶來不可預期的風險,AI治理倡議者常提到AI要能夠與人類價值對齊才是安全的。OpenAI去年6月與英國牛津大學(University of Oxford)合作的論文中就提到,大型語言模型如能「誠實」面對知識的不確定性,在可信度不高的情況下直接拒絕回答、或是給出「不知道」的答案,這樣在模擬人類對於自然語言的運用時,不但更逼真、也有助減緩人工幻覺。

而為了克服大型語言模型容易輸出有毒內容的缺陷,ChatGPT還利用人類回饋強化學習(reinforcement learning from human feedback, RLHF):對於AI預訓練模型所生成的文本,以人工標註的方式將最好到最差排序出來,再利用獎勵模型讓原先的模型學習朝向人類偏好。臺灣大學電機系教授李宏毅將前述過程比喻為AI社會化的過程。不過這個做法看似與人類價值對齊,但最終我們還是需釐清它所對齊的價值是哪些人、哪些價值?又由誰來判斷究竟對齊與否?

針對具有特定預測或決策功能的AI,要求必須與相關使用情境的人類價值對齊,例如求職履歷篩選AI不應該帶有性別或種族歧視,尚有可能且合理。但是我們幾乎不可能要求通用人工智能(artificial general intelligence, AGI)能夠與所有人的所有價值都對齊。AI專業技術界,尤其是OpenAI在官網多處都不斷強調將致力於解決對齊問題,以回應眾人對GPT系列等產品的安全關切。但AGI的對齊問題究竟該如何理解?存在AGI的對齊問題嗎?或許是首先得要釐清的。

在本文中,我們聚焦討論三個針對ChatGPT常見的批評,可以發現都有一定的解套或應對空間。然而,如ChatGPT這類的生成式AI還有其他影響更深遠卻少被提及的議題有待更深入的討論,這也將是下一篇文章的主題。

本文感謝中正大學哲學系教授許漢提供寶貴意見,以及參與深受啟發的由清華大學人文社會AI 應用與發展研究中心主任林文源、副主任王道維執行的國科會「公共化AI—II:朝向公共化的生態圈」計畫。

 

延伸閱讀
1. Hellström, T. et al. (2020). Bias in Machine Learning--What is it Good for?. arXiv preprint arXiv:2004.00686.
2. Kosinski, M. (2023). Theory of mind may have spontaneously emerged in large language models. arXiv preprint arXiv:2302.02083.
3. Lin, S. et al. (2022). Teaching models to express their uncertainty in words. arXiv preprint arXiv:2205.14334.