文章專區

2022-10-01學統計做什麼?邁向資料科學與大數據分析的統計科學 634 期

Author 作者 洪英超/美國密西根大學統計學博士,原擔任政治大學統計學系系主任,現為臺灣大學工業工程學研究所教授。

Take Home Message
• 統計學在20 世紀興起,開始發展具有快速運算能力的統計方法,在21 世紀「數據分析」的重要性更受到重視。
• 根據抽樣誤差及機率分配理論,統計學發展出許多估計母體參數的方法,再延伸至解決各種問題的統計模型。
• 為順應大數據分析的趨勢,統計學家將目標轉至精簡模型及提高模型預測能力,與機器學習及人工智慧產生交集。

回想30 年前,筆者還是碩士班學生時,常有人問我就讀的學校和科系,當聽到我回答「政治大學統計研究所」時,一般人的反應常是「喔,念會計的出路不錯」。在那個年代,大部分的人根本不了解統計(就像過去時常有人誤以為政治大學是軍校一樣),只知道和數字有關的學問就是數學或會計。曾幾何時,隨著大數據分析的盛行,人們對統計科學(statistics)開始產生興趣,也慢慢將它導入高中的數學教育。但是在一般人眼裡,統計這門學問仍像一個黑盒子。到底統計是什麼?學統計又有什麼用呢?

統計的由來和變革

先來談談統計這門科學的發展歷史。「statistics」這個字是由拉丁文「status」、義大利文「statistica」、德文「statistik」或法文「statistique」演變而來的,最早由德國學者阿亨瓦爾(Gottfried Achenwall)在18 世紀中提出,原本的意思是由官方收集有用資訊的學問,之後陸續有多位著名學者開始使用「統計」(statistics)這個專業術語。到了19 世紀,統計有了比較廣泛的意義,包含許多主題的資料分析和解釋,並被大量應用在教育和心理學。20 世紀初期可說是統計科學蓬勃發展的時代,現在統計教科書中的重要理論大多是在該世紀的前半段被提出,也成就許多有名的統計學家,包括皮爾森(Karl Pearson)、戈塞(William Sealy Gosset)、費雪(Ronald Fisher)等人。

不過,統計理論的發展在1960 年後遇到瓶頸,正當統計學家覺得這一門學問已經走到了死胡同時,計算機運算能力的飛快進步卻拯救這一困局。 於是統計學家開始致力於發展具有快速運算能力的方法,例如無母數統計(nonparametric)、經驗貝氏法(empirical Bayes)、刀切法(Jackknife)、拔靴法(bootstrap)、最大期望算法(expectationmaximization algorithm, EM)、馬爾可夫鏈蒙特卡羅算法(Markov chain Monte Carlo, MCMC)、吉布斯採樣(Gibbs sampler)等,讓統計學家如虎添翼,能夠更有效地駕馭原來的理論。在20 世紀後半段,統計的運用逐漸得到人們矚目,並大量應用在經濟、藥學、地質、天文、物理等不同領域。

(123RF)

到了21 世紀初期,隨著計算機運算速度與儲存容量的快速發展,「數據分析」的重要性得到關注,從許多重要的科學成就和真實故事也可以看到。……【更多內容請閱讀科學月刊第634期】