文章專區

2026-02-01當 AI 獲得數奧金牌之後 674 期

Author 作者 魏澤人|陽明交通大學 AI 學院副教授

傳說 19 世紀時,美國工人亨利(John Henry)在建造鐵路隧道時,與蒸氣驅動的鑽孔機進行了一場鑿洞對決。最終他獲得了勝利,捍衛了人類的尊嚴,但也因此力竭而亡,不過這場對決似乎有些久遠。擺在當今,擁有 4.5 億訂閱數的YouTuber MrBeast 拍了一部人類對決機器的影片,其中參賽者也像過去一樣人口一句捍衛人類尊嚴,不過在這情況中,我們沒有人會真的因為跑輸汽車而感到尊嚴受損、懷疑自己的價值。但別開心得太早,我們現在的處境,其實與那位工人亨利異常類似,只不過不是在體能上,而是在智力上。

在漫長的歷史中,人類的智力時常被認為高不可攀。然而這看似鞏固的智力壁壘在過去 30 年間被層層突破。起初是西洋棋。1997 年,由美國國際商業機器公司(International Business Machines Corporation, IBM )研發的深藍(Deep Blue)超級電腦擊敗了人類西洋棋棋王卡斯帕洛夫(Garry Kimovich Kasparov)。當時,我們安慰自己:「那只是暴力計算,不是真正的思考。」

但 20 年後,圍棋這道牆也被擊破了。2016 年,由 Google DeepMind 開發的人工智慧(Artificial Intelligence, AI)圍棋軟體 AlphaGo 震驚世界,打敗了圍棋棋王李世乭。我們立刻改口:「棋類畢竟有固定規則,但數學不一樣。數學證明需要深刻的『靈感』與嚴謹的邏輯推演,那是機器無法觸及的聖杯。」

然而在去(2025)年, AI 成功在國際數學奧林匹亞(international mathematics Olympiad, IMO)中,取得了金牌。而且,共有 4 個 AI 模型跨過了國際數學奧林匹亞的金牌線(表一)。

表一|跨過 IMO 金牌線的 4 個 AI 模型(作者提供)

 

AI 在 IMO 的成就

隨著 ChatGPT 帶起的 AI 狂熱, 2024 年,DeepMind已憑藉 AlphaProof 與 AlphaGeometry的組合達到了銀牌水準。但 AlphaGeometry 針對幾何特別處理,而 AlphaProof 利用自動證明工具程式 Lean來輔助,雖說這是個貨真價實的成就,但多少有點突顯了當時的 AI 在語言理解與推理上的難關。

然而到了 2025 年,由中國推出的 DeepSeek R1問世,這向世人暴露了 AI 邏輯推理能力的跳躍式進展。DeepSeek R1 Zero 依循了思考鏈(Chainof Thought) 這個常用的手法,讓大型語言模型(large language model, LLM)AI 在增強式學習(Reinforcement Learning) 環 境 中, 透 過 環 境的自動回饋、自主學習數學計算以及程式計算這些有標準答案的題目。結果讓大型語言模型 AI在這些需要數學邏輯推理的任務上,大幅提昇了能力。

雖然在此之前,OpenAI o1就帶起了推理模型(Reasoning model)的風潮,各家競爭者想必也各有祕笈。但 DeepSeek R1 的開源特性讓它成為標竿,各家大語言模型的推理能力也都快速拔高。果不其然,這結果也反映到了 2025 年的數學奧林匹亞上。

2025 年時,DeepMind 這次不再使用標榜神經符號系統的 AlphaProof 與 AlphaGeometry 混合架構,而是直接使用了 Google 開發的生成式 AI 聊天機器人 Gemini 推出的 Deep Think 模式,純粹用大型語言推理模型來應戰。他利用類似思維樹(Tree of Thoughts)的平行推理策略,探索多種解題路徑,自我驗證並回溯,最終在官方比賽中解出 6 題中的 5 題,奪得金牌。這證明了現在的大型語言模型本身就具備極強的邏輯推理能力。

而 OpenAI 作為推理模型浪潮的先驅,這次也沒有缺席,他們一樣是單純使用大型語言模型來直接推理,也在 6 題中解出 5 題。不過 OpenAI 並沒有參加官方的比賽,而是由前參賽者來閱卷,並且搶先自行宣布成果。

而抖音軟體(TikTok)母公司 ByteDance 推出的數學專用推理模型 Seed-Prover 以及 Harmonic AI的 Aristotle 兩個模型,也分別宣布在這次 IMO 中答對了 5 題。不過有趣的是,他們的路線更接近於 2024 年 DeepMind 的那種方式,將幾何分開處理,並使用 Lean 來輔助推理。由於推理的過程使用了 Lean 的形式語言,而不是自然語言,所以證明的正確性可以直接用機械驗證,而不需要人類閱卷者批改。

AI 在 IMO 的表現並非孤例。數學證明的本質與編寫程式異曲同工。在國際資訊奧林匹亞(International Olympiad in Informatics, IOI)中,OpenAI 宣稱在去年的 IOI 中達到金牌的水準,只輸給 5 個人類選手。


審視 IMO 的里程碑意義


高推理密度、低知識門檻

IMO 雖說是高中競賽,但限制僅在於不需要微積分 、 拓撲學等大學以後的高深知識。 IMO 解題時,對於邏輯推理的深度、思維的靈活性要求極高。即使是最厲害的數學家來做這些題目,也是極具挑戰性,未必能穩拿金牌。雖不完全等同於數學研究的邏輯推理,但直接將 AI 應用在一般性質的數學研究上,所需要的數學知識太過廣泛,較難準備。而由於 IMO 限制了知識範圍,又有長期人類表現的數據可以比較,正好適合當作驗證數學推理能力的試金石。


反思以及連貫思考的能力

過去的 AI(例如早期 ChatGPT 3)是典型的「快思考」。無論問題多難,它都傾向於即時生成答案,所以雖有時有讓人驚豔的表現,但也常犯下明顯的邏輯錯誤。人類也很容易犯錯,但可以藉由反覆思考檢查,修改自己的錯誤。

IMO 的賽制是兩天,每天 4.5 小時解答 3 道題,即使對人類來說,已經是相當長的思考時間了。而 IMO 的成果,反映了 AI 學會這種「慢思考」的進展。 現在的模型已經會在內部獨白中說:「等等,這個假設似乎會導致矛盾,我需要換個方法。」這個在 DeepSeek R1 的論文發現的啊哈!時刻(Aha Moment) 〔註〕 ,已經普遍存在於現在的大語言模型中。 這代表著 AI 開始具備了反思的能力以及長達數分鐘甚至數小時的推理連貫性。雖然還比不上專業數學家動輒數月、 數年的研究,但已經超過絕大多數人類的思考長度了。

〔註〕 也被稱為尤里卡效應,指人突然理解過去無法想通的難題。


已知與未知的邊界

如前面所說,只要整合夠多的知識,搭配目前邏輯推理能力的進展,要讓 AI 擁有超越一般人的數學能力,只是時間問題。但值得注意的是,研究的本質是探索未知的領域。IMO 題目雖然難,也有新穎性的要求,但它們都有已知的、確定有解答的題目。IMO 的金牌證明了 AI 是一個完美的「解題者」,但尚未驗證它是一個能擴展人類知識邊界的「創新者或研究者」。AI 以及機器學習模型,通常在內插(Interpolation) 上的表現,比外推(Extrapolation) 上表現好很多。所以這是一個值得關注的問題。但在 IMO 的成功無法讓我們佐證 AI 在這方面有超越人類的能力。

不過,即使 AI 在創新研究上的能力不足,未來如有超人的解題能力,未來也能輔助研究,驗證某些假設是否能在已知的方法中解決。


與科技共存

如果電腦比人類還聰明怎麼辦? 還需要學數學嗎?這是我們這幾代人將面臨的新課題。就像工業革命後,機器的普及讓人們接受了體能不如機器、專業手工技術被機器取代的事實。

計算器的發明並沒有毀掉數學,反而讓數學家從繁瑣的算術中解放。也許 AI 的介入,將使數學經歷一場類似的過程,解題技巧和運算速度將不再是衡量數學能力的唯一標準。從而讓我們反思數學以及人類心智的本質。人類將從「做題家」轉變為「架構師」、「思想家」。也許複雜的邏輯推理不該成為學習數學的阻礙。30 多年前,我在高中工藝課的表現不好,主要是因為繪圖時不夠細心穩定,易有髒汙,線也無法繪製的筆直粗細一致。即便我有再多的興趣、空間幾何能力、創意,在繪圖的第一關就過不去了。現在完全可以用電腦輔助設計工具來彌補手繪的問題。

但反過來說,也許邏輯推理真的就是數學的核心本質,沒有深刻的體會以及經驗,就無法真的明瞭數學的精神,也談不上思想或架構。那在邏輯推理更加無用的時代,數學教育要如何讓學生產生更多邏輯推理的經驗和技能,將是值得探討的問題。


來自棋壇的啟示

我們可以從西洋棋以及圍棋的經驗借鏡。當 AI 在西洋棋和圍棋領域徹底擊敗人類後,這些領域並沒有因此沒落,但 AI 也實質上提昇西洋棋技術的水準。職業棋手開始使用 AI 進行復盤〔註〕。過往復盤時,很多變化過於複雜,往往得到的只是一些看法或者見解。而 AI 發現了許多人類過去認為是「錯誤」但其實是「妙手」的下法,極大地豐富了棋手的戰術庫,另外 AI 也解決了練習棋類的對手老師資源的稀缺性問題。

〔註〕下完棋後,透過重新走一次棋局檢討。

AI 完全可以對數學教育及學習上,起到類似的作用。但與棋類不同,數學是普及教育,學生的動機與熱忱截然不同。這將是我們面臨的新課題,甚至值得深思:數學是否依然應作為普遍必修的科目?

在數學研究方面,又是如何呢?由前世界棋王卡斯帕洛推廣的「 半人馬西洋棋 」(Centaur chess)一度非常流行。這種人類與電腦組隊合作的模式,也許值得參考。當時即使 AI 已經擊敗人類棋手了,但藉由人類棋手及 AI 組隊合作,人類的直覺搭配電腦的計算,截長補短,能打敗單只有電腦作參賽者。

AI 在 IMO 的表現,標誌著機器已經足以成為能與人類並肩探索真理的夥伴。在有點相似的程式設計領域,除了靠 AI 來輔助程式設計,已經是業界常態外,Vibe coding 的流行能讓大家動口不動手就能寫程式,即使是沒學過程式語言的外行人,也能跨越門檻,靠著自然語言和 AI 互動來寫程式。

數學研究上,雖然還不像寫程式那樣普遍,但也有許多積極的先行者。知名數學家陶哲軒表示,在數學協作解決問題網站上,利用 AI 來協助已經是常規操作了。

也許未來的 20 年內,正如陶哲軒所言,我們不需要擔心 AI 會取代數學家,反而該期待的是一個「半人馬」式的未來,人類的直覺與審美,引導著 AI 的邏輯與算力。這不會讓數學家失業,反而會讓我們能解決以前根本不敢想像的複雜問題。

數學協作解決問題網站