Search / 搜尋

- 文章分類 -

文章專區

2022-03-15大數據獲得的資訊，最客觀嗎？ —《數字偏見》 483 期

Author 作者桑妮．布勞（Sanne Blauw）

演算法數字數據人工智慧可信賴程度信用分數詐欺行為資訊時代

讓我們從留意遭到忽視的細節開始。我們現在究竟如何使用數據？正如過去的時代發明了平均數和圖表，藉此理解過去曾堆積如山的資訊，更為聰明的現代人提出各種方法，馴化數萬億位元組的數據。這種技術—也就是演算法（演算法〔algorithm〕一詞衍生於西元九世紀的波斯數學家花拉子米〔Muhammed ibn Musa al-Khwarizmi〕，他寫了一本關於代數的書籍）。— 決定我們在谷歌搜尋得到的結果、在臉書上看到的貼文、在約會軟體中遇見的對象，與誰能獲得塔拉公司的貸款。

事實上，演算法只不過是我們達成特定目標的幾個步驟。在電腦螢幕上，演算法看起來非常枯燥乏味：軟體開發人員在電腦中輸入一行一行的程式語言，藉此設定在特定環境中需要採取的步驟。這種程式語言可能是「若⋯⋯則」指令，舉例而言，「若某人已經償還貸款，則她的信用分數提高10 分。」

演算法如何運作？美國數學家凱西．歐尼爾（Cathy O ’Neil）在著作《數學毀滅武器》（Weapons of Math Destruction）中，使用一個實際的例子來解釋：替家人下廚。如果家人（a）吃得夠多，（b）喜歡準備的食物，而且（c）獲得足夠營養，她就會覺得快樂。藉由每天晚上評估這3種因素，她就能理解晚餐的情況，也明白該如何改善晚餐菜色。她的小孩不吃菠菜但喜歡花椰菜的資訊，協助她知道如何讓小孩獲得更健康的飲食。但為了達成目標，她必須注意幾個限制條件。她的先生不喜歡食物加鹽，而她的其中一個兒子不喜歡漢堡（但喜歡雞肉）。除此之外，她的預算、時間以及下廚的心情，都是有限的資源。

經過幾年練習之後，歐尼爾已經變得非常善於處理下廚過程。她發展出更緊密的步驟，可替全家人烹飪最佳料理，而且已經有一部分是潛意識的動作。

現在，讓我們假設電腦替她執行任務。她如何將晚餐菜色交給機器決定？她可以從思考如何標準化目標開始。舉例而言，為判斷家人是否吃到好吃又營養的食物，她可以觀察（a）熱量、（b）滿意度以及（c）每日推薦吃下的營養分量。她也應該思考如何量化各種限制條件，如設定預算上限。

釐清如何標準化後，歐尼爾可以開始蒐集數據。她能夠先擬出一張可能的食譜清單，內容包括烹飪時間、價格以及營養價值。她以每份餐點為單位，依照分量和健康價值估計分數，並請家人從1到10進行評分。

歐尼爾使用數據撰寫了一個程式，可準確說明家人每天應該吃的餐點。但是，歐尼爾也可以設置一個能夠自我學習的程式。只要所有條件都能按照數據計算，電腦就能分析餐點和目標之間的相關性。或許，演算法甚至能夠發現連歐尼爾本人都沒有察覺到的模式。舉例而言，如果小孩昨天曾經吃過鬆餅，今天就能吃更多的球芽甘藍。電腦使用機器學習，這是一種人工智慧，藉此學習並未預先設定程式步驟的任務。令人毛骨悚然之處在於，由於程式自我學習的能力，演算法變得如此複雜，沒有人（即便是程式設計師）能理解軟體採取了何種步驟。

簡言之，歐尼爾能夠標準化處理烹飪任務，蒐集數據，讓軟體分析數據。我們曾在何處也看過這種步驟？佛蘿倫絲．南丁格爾、阿奇．考科藍，以及其他人就是採用了完全相同的處理方法。在演算法的例子中，正如我們在前面幾章討論過的內容，三個處理階段都可能出現嚴重錯誤。

1. 測量抽象概念的問題

塔拉這類公司的財務部門使用大數據評估一個人的信用程度。以「熱心財務」（ZestFinance）公司為例，這間公司從2009年開始，判斷超過3億人的信用分數。熱心財務公司的創辦人是過去曾任谷歌資訊長的道格拉斯．麥瑞爾（Douglas Merrill），他主張，傳統的信用分數系統受限於「過少的資訊」。費爾和艾薩克在遙遠過去設計的傳統信用分數，使用「少於50個數據點」，只是「任何一個人公開數據的冰山一角」。相對地，為了評估一個人的信用分數，熱心財務公司使用超過3000個變數。

在荷蘭，為了測量客戶的付款態度，也有無數公司使用大數據。荷蘭數據交易商「焦點」（Focum）的制度是從1分至11分。如果還沒繳納帳單費用，則失去10分，而總分可能會影響20歐元至2萬歐元的借款金額。信用分數評比公司將分數賣給願意購買的買家，從保險公司至房屋公司；從維登佛電力公司（Vattenfall）到沃達豐（Vodafone）電信公司。不良的信用分數代表一個人可能無法申辦手機，或與電力公司簽約時必須繳納高額保證金。焦點公司宣稱，他們擁有1050萬荷蘭人的數據。對於一個總人口數只有1700萬人的國家，這真的是一個龐大的數據資料。

讀者可能會思忖，這個現象有何問題？畢竟，信用分數也提供了契機，正如來自肯亞的珍妮佛。但是，信用分數對於你我的生活可以產生的影響，遠比我們想像的更大，而且不見得永遠都是正面的。

我們曾在稍早的章節探討，智力測驗分數只是對於某些無形事物的評估，例如智力。信用分數也是相同道理。信用分數想要表達一個人在未來償還貸款的可能性，換言之，信用分數其實是一種預測。

許多大數據的模型想要預測未來。美國的司法體系也建構了一種系統，計算犯人再度犯罪的可能性。這種計算結果造成嚴重後果：影響了一個人是否可提前出獄的決策。但是，我們在未來將會面對一個局面：某個事物是抽象的，且難以預測。在此種類型的預測背後，統計模型並非永遠完美無瑕，必然會有一定程度的不確定性。如果我們忘了預測只是對個人行為的評估，我們對他人的判斷，就是基於不充足的數據。

信用分數還有另一個問題。其應用範圍經常超過個人行為，用於表達其他至少同樣抽象的事物：可信賴程度。信用分數不只是評估貸款的指標。美國的約會網站「信用分數約會」（CreditScoreDating.com）—標榜「在這裡，信用分數很性感」—讓人可以尋找與自己信用分數相符的對象。

然而，信用資訊還有更進一步的應用。2012年的一份研究報告以人力資源專業人士為調查對象，發現大約47％左右的雇主會調查求職者的信用歷史。另外一份調查美國家庭信用和債務歷史的研究報告指出，在曾有不良信用紀錄的人之中，七分之一曾經被明確告知，他們之所以無法順利找到工作，是因為過去的不良信用紀錄。

上述研究結果雖然都是特殊樣本，無法代表美國的整體人口情況。但是，雇主調查應徵者的背景依然是不爭事實。只要稍微觀察美國線上徵才的趨勢，就能發現雇主要求查核應徵者的信用背景，而且應徵工作的類型非常多元，從販賣煙火至評估保險理賠。

雇主不會看到真正的信用分數，而是收到信用報告，內容是回顧一個人過去的借貸行為。雇主使用這個數據，希望評估潛在員工的性格特質，以及判斷應徵者是否會在未來發生詐欺行為。

但是，其實沒有任何證據可證明一個人過去的借貸紀錄，以及一個人在工作時的表現，兩者間確實有相關性。在非常少數的幾份研究報告中，也無法證明相關性。學者傑瑞米．伯奈斯（Jeremy Berneth）和同仁針對費克公司的個別信用分數和人格特質進行比較。信用分數較高的人在良知測驗中的分數確實比較高；信用分數較低的人，良知測驗分數較低。但在其他性格特質方面，沒有任何顯著差異。

更重要的是，信用分數和詐欺行為無關。簡言之，使用一個人的信用歷史，來評估其職場可信任程度是種錯誤行為。美國有11州以充分的理由決定，雇主要求調閱一個人的信用歷史是違法行為。

但是，即使你的信用分數只用於評估貸款，我們也應該保持警戒。因為，蒐集資料的過程，可能產生許多或大或小的錯誤。

2. 大數據的源頭，可能大有問題

大數據可協助我們解決蒐集數據的基礎問題。正如其名，大數據讓樣本大小不再是一個問題。幾乎每個人都會使用網路，除此之外，各種應用程式和裝置—恆溫空調裝置、汽車以及各種消費型電子產品— 都會追蹤我們的行為。杜拜、莫斯科以及紐約等城市自稱智慧城市，因為使用新的科技，蒐集市民所有類型的數據，蒐集設備從路燈上的無線網路追蹤器至光纖網路的感應器。

既然我們如今已經在日常生活中開始使用更多科技工具，也就沒有必要像性學專家阿爾弗雷德．金賽在研究中執行個人採訪。現在，我們可以直接觀察人的行為。正如數據學者賽斯．史蒂文斯—大衛多維茲（Seth Stephens-Davidowitz）所說：「谷歌就是數位的真理血清。」

舉例而言，已婚女性在谷歌上搜尋丈夫是否為同性戀的次數，是詢問丈夫是否酗酒的8倍；在印度，「我的丈夫要我給他母奶」是查詢最多次的主題；即使在美國的保守州，如密西西比，雖然調查報告呈現的同性戀人數較少，但在網路上查詢同志性愛影片的次數，依然相對等同於如紐約等進步州。如果有機會使用此種數據蒐集方式，阿爾弗雷德．金賽將宛如置身天堂。

信用分數背後的公司知道，在資訊時代，個人資料隨手可得。他們不需經過正式的繁文縟節，而是能在網路上梳理關於你我的資訊。正如熱心財務的執行長道格拉斯．麥瑞爾所說：「所有數據都是信用數據。」有時候，他們蒐集的資訊屬於公開資訊，例如在商業委員會的登記立案資訊，但在其他時候—通常是在你不清楚的情況下—你已經同意分享自己的資訊。

數據經常來自陰晦不明的角落。2017年10月，《綠色阿姆斯特丹人》（Grone Amsterdammer）周刊以及非營利組織「印凡思提柯」（Investico）平臺，發表了由新聞記者卡爾林金．庫傑波斯（Karlijn Kuijpers）、湯馬斯．慕特斯（Thomas Muntz）以及提姆．史托爾（Tim Staal）所共同完成的詳盡調查報告，主題是荷蘭的數據交易商。他們發現，有些單位直接從債務蒐集機構獲得數據。民眾的財務歷史儲存在資料庫，但民眾不知情，因而被列為黑名單—而他們在許久以前早已償還貸款。順帶一提，此種資訊分享是違法行為，如果相關機構想要分享關於你的資訊，就必須通知你。想要知道數據是否按照正確的方式使用，通常是不可能的，因為無法明確知道數據最初被用於何處。

上述3位記者在報告中發現，位於荷蘭瓦赫寧恩市的一家房屋公司，拒絕信用分數過低的民眾承租社會住宅，但這家公司「不需知道信用評比公司如何計算民眾的分數」。為進行實驗，3位記者請10位民眾向3家數據調查機構要求查閱自己的數據，他們獲得的數據幾乎毫無價值。但是，3位記者假扮成來自商界的客戶，向同樣的機構購買數據時，則是收到非常詳細的數據調查報告。

毫無疑問地，數據經常有誤。美國聯邦交易委員會曾在2012年強調，在他們的調查樣本中，民眾從三大數據調查機構中發現關於自身數據有誤的比例，高達驚人的四分之一。在20人中，就有1人的數據差異極為嚴重，可能導致個人必須為貸款支付更高利息。

其他資料庫中也會有相同錯誤。在2009年至2010年間，英國出現17000名懷孕男性。沒錯，懷孕的男性，因為他們的醫療登記編碼與產科流程的編碼混淆了。數據錯誤出現在各種場合：市政機構的個人紀錄資料庫登記錯誤地址、稅捐機構和員工保險機構儲存不正確的收入數據，或者警方的資料庫誤將某人登記為罪犯。因此，盲目相信數字不是一個好主意。

有時，錯誤的發生不是出自失誤，而是惡意。2017年，美國最大信用評比機構之一伊奎費克斯（Equifax）宣布公司遭駭。將近1億5000萬名客戶—接近美國總人口的一半—資料被偷走了，也就是說，民眾的出生日期、地址以及社會安全碼，現在都會出現在黑市。此種細節資訊非常重要，因為可以使用相關資訊在美國實際完成所有重要交易。你將能用其他人的名義申辦信用卡、填寫退稅表單，甚至買房。當然，該公司提供的相關聲明並未說明哪些人的資訊遭竊。

正如統計學中的一句老箴言：「輸入垃圾，就會得到垃圾。」人類可以創造最聰明的機器學習演算法，但如果輸入的數據有問題，機器也會毫無用武之地。假設未來的數據瑕疵可完全消除，也就是說我們將可以使用到完美數據，如此一來就能將命運交給演算法嗎？

書　名｜《數字偏見：不再被操弄與誤導，洞悉偽科學的防彈思考》
作　者｜桑妮．布勞（Sanne Blauw）
譯者｜林曉欽
出版社｜今周刊
出版日期｜ 2021 年12 月30 日

有個現象愈來愈顯著，那就是數字決定世界的面貌：
從退休年齡到Facebook點擊次數，從國內生產總值到我們的收入。
但有沒有可能，你愈相信數字，就離真相愈遠？

數字、分數、排名、民意測驗和大數據，在每個人的生活中變得愈來愈重要。

然而就像美國諺語：「槍不會殺人，但拿槍的人會。」一樣，數字不會撒謊，但使用數字的人會。

在這假新聞充斥、製造真相的時代，即使你對數字無感，數字依然深刻影響你的人生。數字讓人自以為擁有獨立思考，但其實，我們比想像中更容易掉進用理性科學編織而成的思維陷阱。

相關推薦

科學月刊 3月號/2022 第627期：天涼泡湯趣！-已完售-無庫存

科學月刊 3月號/2022 第627期：天涼泡湯趣！-已完售...

科學月刊 2月號/2022 第626期：伴你走出憂鬱-已完售-無庫存

科學月刊 2月號/2022 第626期：伴你走出憂鬱-已完售...

新訂一年方案：《科學月刊》一年12期

新訂一年方案：《科學月刊》一年12期

新訂兩年方案：《科學月刊》二年24期

新訂兩年方案：《科學月刊》二年24期

台北市大安區羅斯福路三段 77 號 7 樓
服務電話：+886-2-2363-4910
電子郵件：scimonth@scimonth.one
服務時間：週一至週五 09:30~17:30，例假日除外。

認識科月

關於科月

各期目錄

投稿須知

合作洽談
讀者服務

購買雜誌

訂閱雜誌

網路會員

訂閱電子報

隱私政策服務條款

© 1970- by Science Monthly 若需轉載、使用科學月刊或科技報導的文字、圖像或影音等，請洽本公司。

網頁設計 : 藝誠網頁設計公司