文章專區

2025-11-15天下沒有白吃的午餐 仰賴ChatGPT學習可能付出的代價 527 期

Author 作者 周成功/陽明交通大學生命科學系暨基因體科學研究所退休教授

2022年11月30日,美國人工智慧(artificial intelligence, AI)研究公司OpenAI研發的資訊搜尋工具「ChatGPT」正式對外發布,它使用起來非常方便,而且還可以透過及時的交談,確立資訊的來源以及進一步對資訊的分析、比較、列表等功能。


全新模式的資料搜尋

ChatGPT的出現帶出了一種在學習中獲取資訊的全新方式,明顯與傳統Google搜尋引擎不同。Google根據使用者查詢的關鍵字,引導使用者到相關的網站;而ChatGPT則試圖通過「理解」人類語言表達的問題,再從龐大的資料庫尋找資訊,直接回答問題。ChatGPT使用自然語言提問,而非用關鍵字查詢,並且能得到純文字的答案,不需要再從龐雜眾多的搜尋結果中去拼湊答案,這對使用者當然是一個明顯的優勢。但ChatGPT也存在一些技術上問題,最明顯的就是資訊的時效性。Google能夠持續且及時對網站進行索引,為使用者提供最新的線上資訊。相較之下,ChatGPT代表的是一個固定的資料庫,只會定期更新,因此它提供的資訊可能無法反映當下最新的發展。

當然現在ChatGPT也已經能通過有限的網絡搜尋來補充它的資料庫,但在研究快速變化的主題或突發新聞時,Google仍然有它的優勢。另一個問題是ChatGPT可能產生「夢幻」的內容,也就是一些看似合理,但無法在引用來源中驗證的訊息,而Google永遠只會將使用者導向原始資料的出處。最後,ChatGPT的個人化互動與對話方式,可能會造成使用者認知的偏差,因為系統會根據使用者在對話中呈現的信念和偏好去調整回應,這可能會導致片面資訊的誤導。而Google只提供多元的結果,讓使用者必須自己去判斷。當然在對話中你可以進一步提問,要求解釋或澄清,這樣可以減輕在資訊搜尋過程中的認知負荷,而這也是使用ChatGPT的另一項優勢。但使用ChatGPT或Google對學生探究學習到底分別會產生哪些什麼樣的影響?該怎麼研究和回答這些問題,就成了一個正在起步的研究領域。


學習中的認知負荷

2024年,一篇非常有趣的論文發表在《電腦在人類行為中的應用》(Computers in Human Behavior)這份學術期刊中,標題為〈輕鬆認知付出的代價:大型語言模型在學生科學探究中減輕了心智負擔,卻削弱了學習深度〉(Cognitive ease at a cost: LLMs reduce mental effort but compromise depth in student scientific inquiry)。這個研究是由德國慕尼克大學的研究團隊,於2023年4~5月期間所進行的一項研究。他們用認知負荷作為指標,探討學生在使用Google或ChatGPT來研究一個指定的科學主題時,對學生的認知負荷會產生什麼樣的影響?

這裡要先解釋一下什麼是認知負荷?認知負荷簡單來說就是在學習過程中,大腦暫時儲存並處理資訊的容量,所以學習愈複雜的事務,對大腦的認知負荷就愈大。再來,從認知負荷的內容來看,我們可以把認知負荷分成三個類型:

1. 內在認知負荷(intrinsic cognitive load):指學習內容本身的難度。
2. 外在認知負荷(extraneous cognitive load):指的是學習過程中不必要的負擔,像是糟糕的教材設計或老師指導態度帶來的心理負擔。
3. 增生認知負荷(germane cognitive load):指的是大腦在學習過程中,專注於理解、整合與建構知識所投入的心智努力。這種負荷是幫助學習者真正學到東西的「好負荷」,讓學習者把新資訊連結到已有的知識系統,形成深刻仢理解。像是學新的數學公式時,學習者會刻意思考它是如何推導出來,並試著用它來解決問題。或是在寫作時,學習者會思考怎麼組織文章,讓閱讀者更容易理解。這些思考過程對大腦來說就有意義的認知負荷,因為它會幫助你真正學會,並將知識內化成為你心智系統的一部分。

理解認知負荷對於設計有效的學習經驗非常重要。因為當學習過程中大腦承擔的負荷超出可以處理的容量時,會導致表現下降並可能產生學習困難,這個叫作認知超載(cognitive overload)。

再用一個生活中的例子來解釋認知負荷。假設你正在學怎麼騎腳踏車,內在認知負荷(本質難度)就是你必須學會怎麼保持平衡、踩踏板、轉方向這些基本技巧。如果這時有教練在旁邊高聲混亂的指揮,或是在地形畸曲的地方練習,都會增加大腦額外的負擔,那就是外在認知負荷(不必要負擔)。當你專心練習各種技巧,試著熟悉並整合這些技巧,突然間一刹那你學會了騎腳踏車,且一輩子不會忘掉怎麼騎。那這時候就是在學騎腳踏車時,你大腦中的增生負荷(有意義的學習)。如果比較專家與初學者學習效率的差異時,因為專家已經建立了完整的知識架構,所以能更有效地處理資訊;相較之下,初學者因缺乏先備知識,通常會經歷較高的認知負荷。


實驗設計:跟著保羅一起做科學探究

對認知負荷有一個基本認識之後,我們就可以來看看他們是怎麼進行這個研究。研究團隊首先在德國一所知名大學中召募了不同科系的91位大學生參與。由於科學探究的主題是關於防曬產品中奈米顆粒對人類的影響,因此可能具有先備知識的醫學、藥學與生物學系的學生,一開始便被排除在召募對象之外。最終樣本為91位學生,其中67位為女性,24位為男性,參與者的平均年齡為22.3歲。

接下來學生被隨機分配至兩組,分別使用不同的資訊搜尋工具。第一組47位同學只被允許使用Google,而第二組44位同學只能使用ChatGPT。他們共同面對一位虛構的朋友保羅(Paul),保羅在思考未來是否應該使用含有礦物奈米粒子(也就是氧化鋅與二氧化鈦)的防曬乳,這是一個尚未定論的社會科學議題。首先,保羅提出防曬乳含有礦物奈米粒子的三個優點:這些粒子能反射紫外線(ultraviolet, UV),藉此在不使用化學成分的情況下過濾紫外線,避免產生將輻射轉化為熱,並可降低對化學成分過敏或接觸荷爾蒙(hormone)產生副作用的風險;目前尚未發現這些粒子有任何不良的副作用;此外,使用奈米粒子的防曬用品可達到極高的防曬係數(sun protection factor, SPF),能更有效保護皮膚。然而,保羅也表達了對這些防曬用品可能帶來健康風險的隱憂。

學生的任務就是研究納米粒子在防曬乳中的應用,以便向保羅提供最合理的建議:保羅的擔憂是否有科學根據?或者他的擔心是不必要的多慮。學生有整整20分鐘的時間可以進行研究,之後立刻填寫一份調查認知負荷的問卷,以瞭解學生在使用Google搜尋引擎或ChatGPT(3.5 版)進行研究時,認知負荷的差異。並且在不能使用任何筆記(包括網頁或與ChatGPT的對話)的情況下,撰寫書面建議與理由說明。最後,學生也回答了一系列評估奈米科技先備知識的問題。


輕鬆好用=學得淺?

這個研究基本上試圖回答三個重要的問題,第一:學生在使用Google或使用ChatGPT研究指定科學主題時,外在認知負荷、內在認知負荷和增生認知負荷上是否存在差異?第二:學生在使用Google或使用ChatGPT後,所提出建議背後的推理品質是否存在差異?第三:學生在使用Google或使用ChatGPT後,最終建議的內容同質性的程度是否有所差異?

針對第一個問題,研究團隊預期使用ChatGPT進行研究時,所需排除無關資訊的機會較少,在內容呈現方式上,ChatGPT提供的回應更容易理解。相對地,使用Google時,學生需要更積極地與Google搜尋的內容互動,這可能導致學生有機會更深入地處理訊息。所以由第一個問題可以推衍出三個預期的結果:

1. 使用ChatGPT的學生在學習過程中感受到的外在認知負荷,會低於使用Google搜尋的學生。
2. 使用ChatGPT的學生在學習過程中感受到的內在認知負荷,會低於使用Google搜尋的學生。
3. 相較於使用Google搜尋的學生,使用ChatGPT的學生會經歷較低的增生認知負荷。

透過調查認知負荷的問卷,研究結果顯示兩組學生在認知負荷上的確存在顯著的差異,使用ChatGPT的學生在外在認知負荷、內在認知負荷與增生認知負荷三個面向上的負荷都比使用Google搜尋的學生低。這個結果完全和前面兩個預期的結果相苻,也就是說ChatGPT透過提供直接而且簡潔的答案,能夠減輕因為使用Google需要篩選與整合多個網頁資訊所帶來的認知負荷。這種認知負荷的減少有助於學習,因為它可以釋放出大腦更多寶貴的認知資源。然而,研究結果同時也支持前面提到的第三個預期結果:ChatGPT組學習過程中增生認知負荷比Google組低。這說明瞭雖然在資訊處理上ChatGPT看起來更容易,但這樣的學習過程可能無法像傳統搜尋任務那樣具挑戰性,進而有效地激發深層學習的歷程。


Google會逼著你動腦?

接著,針對第二個問題:學生在使用Google或使用ChatGPT後,所提出建議背後的推理品質是否存在差異?研究團隊先諮詢奈米科技相關領域的專家,擬出審查評分的七項指標,像是僅在皮膚受損時才會有風險;或噴霧具有風險,因為奈米粒子可能被吸入等。然後由兩位評分者獨立對所有的推理過程進行評分。結果發現,學生在結論中所提出的推理品質,使用ChatGPT的學生與使用Google的學生之間存在顯著差異。使用Google的學生,在論述中明顯提出了比使用ChatGPT的學生更多的陳述和論點。所以儘管使用ChatGPT的學生學習過程中內在與外在認知負荷都比較低,但他們所提出結論或論述品質卻明顯低於Google組。這個結果表示高度互動、具挑戰性的資訊處理環境,像Google所提供多樣且複雜的資訊,能促使學生更深入地搜尋到他們所需要的內容,從而強化自身的學習歷程,並在最後提出更細緻、更高品質的建議。


ChatGPT也不會讓你「千篇一律」

最後一個問題:使用ChatGPT的學生所提出的結論同質性是否會小於使用Google的學生?結果顯示,兩組學生在結論的一致性上並未出現顯著差異。這表示,儘管ChatGPT看似是提供明確的答案,但學生仍保有個人解釋和判斷空間,因而形成不同的結論。這一結果消除了ChatGPT可能導致使用者得到相同結論的隱憂。這些研究結果凸顯了資訊呈現方式與學習成效之間的複雜關係。雖然ChatGPT能降低認知負荷,理論上有助於學習,但從ChatGPT輕易地取得答案,不一定能轉化為更深層的學習或更高品質的推理過程,這部分可從Google組在提出更詳盡、更具說服力的論點中可見一斑。另外,這項研究也突顯出使用數位技術時推論認知過程(例如重組、反思)的重要性。從ChatGPT直接蒐集知識可能是一個比較表淺的學習過程,而整合不同來源的資訊,進一步推衍伸出知識可能是一個更有深度的學習過程。


想學到知識,主動積極與勇於挑戰是關鍵

所以這裡要再次強調,主動參與學習內容是深度學習的關鍵,教育策略不能僅僅只在強化資訊傳遞的方便,更應該設計具有挑戰性的問題,讓學生能主動、深入地處理這些複雜資訊。