文章專區

2022-09-16能從醫學影像分辨種族 AI帶來醫學倫理疑慮? 489 期

Author 作者 郭柏志/清華大學資工系助理教授。

人工智慧(artificial intelligence, AI)輔助臨床判斷已成為近年醫療的趨勢,被應用在多種醫學領域。例如利用眼底視網膜影像進行糖尿病預測、透過X光影像判讀是否有肺部疾病、依照患者入院時的病歷資料進行死亡預測等,有時準確率甚至超越了有數十年經驗的臨床醫師。近五年來,美國也已經有數百件的AI系統經美國食品藥物管理局(U.S. Food and Drug Administration,FDA)核准落地使用,愈來愈多的醫院引進AI輔助醫師做臨床決策。

不過在近年卻有研究指出,這些AI系統或許在弱勢(或少數)族群中存在著失準的現象,也就是在不同族群間會有不公平的判斷準確度。例如,假設同時一位黑人與一位白人量測到相同的血壓,但AI高血壓風險的評估演算法會給予白人較高的風險指數,建議患者應該要接受進一步的治療與藥物控制;而對於黑人,則顯示風險低,建議只需繼續觀察即可。這些發現讓AI的公平性及可靠性受到質疑,潛在問題逐漸浮上檯面。

超越資深放射科醫師,AI可從X光影像分辨種族

我們從2020年開始,號召來自世界各地的學者包含麻省理工學院(Massachusetts Institute of Technology,MIT)、史丹佛大學(Stanford University)等世界頂尖研究單位,討論AI判斷不公平的問題以及可能的原因,並試圖尋求解決方法。某天,我與學生突發奇想,測試AI究竟有多大的本事可以從X光影像中做判斷,是否能看出被拍攝的患者是屬於哪個族群,男生或女生?老年人或青少年?亞洲人還是白人?測試之下發現令人難以相信的結果,AI對於分辨不同性別、種族的放射醫學影像,如胸部X光影像、胸腔電腦斷層掃描影像、乳房攝影、頸部X光影像,竟然都存在高達90%的辨識準確率。

圖一:AI 可以從各種放射科影像辨別出種族。(作者提供)

這意外的發現也讓我們立即與國內外資深的醫學影像專家討論,除了年齡和性別因為生理構造上本身存在的差異,而導致精準的區分結果可以合理解釋外(如圖二上所示),關於種族(如圖二下所示),大家都一致認為:不可能,一定是我們的電腦程式有臭蟲〔註〕!資深的放射科醫師更提到,以他這麼多年檢視過上萬張影像的經驗,也完全不可能從影像中判斷出種族。但當各國團隊著手進行相同的實驗後,也紛紛得到了和我們相同的結果,大家都直呼不可思議。那麼究竟AI是怎麼辦到的?AI的這種能力,究竟會對其判斷的公平性有什麼影響呢?

圖二:不同性別、年紀、種族的胸腔X 光影像。(作者提供)

〔註〕臭蟲,即英文Bug,開發人員在撰寫程式時不經意的錯誤導致程式出錯。

要回答AI怎麼判斷的問題並不容易,因為AI的運作模式是大家俗稱的黑盒子(blackbox),也就是內部複雜的數值計算往往不透明、且並非人類可以用直觀意義理解。舉類神經網路模型為例,我們可以想像當一張影像進入模型分析時,在第一層會被拆解成各類的影像特徵如形狀、亮度、線條角度,這些特徵會在第二層繼續被分解或重組成新特徵,經過層層的計算後,最後輸出一個數值,即顯示可能為某疾病的機率。整個過程中動輒就是超過數百萬次的數值運算,要逐一理解這些運算背後的意義,幾乎是不可能。

因此,為了找出AI從影像判斷種族的依據,我們設計了一連串的實驗,包含將圖片裡的一部分遮住,考驗AI觀察後判斷種族的準確率是否下降,或是將影像放大、縮小、旋轉、模糊化、裁剪等處理後再測試。結果顯示,AI非常神奇地通過了大多數的考驗,即使從非常模糊的影像中,也可以準確地判斷影像主人的種族(如圖三折線所示)。

根據這些結果,我們只能得到以下的結論:AI在判斷種族時並非使用影像中特定的位置或區塊進行決策,而是利用整體影像中細微的資訊,然而這些資訊並非人眼能夠直接識別。也就是說,要從影像中直接刪除與種族相關的資訊相當困難。

醫學倫理疑慮,種族資訊影響了診斷

那麼,AI這種判斷種族的能力,究竟會不會在協助診斷的時候造成判斷出現不一致,進而產生醫學倫理的疑慮呢?為了回答這個問題,我們又進行了另外一個實驗:我們先建立一個可以自動從X光影像判斷是否有特定疾病(例如肺炎)的模型,接著我們觀察該模型在白人族群和黑人族群的偽陰性率是否相同〔註〕。從實驗結果發現,在各種疾病的平均判斷上,白人誤判率約為17%、黑人誤判率約為28%。換句話說,黑人有較高比例的人罹患肺炎卻沒有被AI系統發現;也就是AI系統較適合白人來使用,準確率也較高。

圖三:利用不同解析度影像進行種族判別的準確性。(作者提供)

〔註〕偽陰性率的意義即當對某種疾病診斷結果為正常,但實際上該患者卻患有該疾病的機率。

發現判斷疾病上確實有不公平的現象後,要進一步確定,這種不公平和「AI判斷種族」的能力有沒有關聯性,因此我們進行了另一個實驗來釐清。把上述建立可以自動從X光影像判斷是否有特定疾病(例如肺炎)的模型拆解開,將模型中間產生的運算過程提取出來,再利用這些中間產物來判斷種族。若這些中間產物也有很好的判斷能力,那就可以推測模型在「判斷疾病」的過程中,很可能已使用患者「種族」的資訊來做決策,而不只是使用和疾病本身相關的特徵。這就好比醫生在看診時,除了看症狀外,看到進門的是白人或黑人,也會成為他做診斷的依據,儘管該疾病在不同種族間並沒有致病率高低的區別。而最終如我們所假設的,實驗的結果顯示AI在判斷疾病的過程中,確實利用了患者的種族資訊,進而影響到決策的結果。也就是AI太過聰明,自行學到了讓它可以透過跟疾病無關的「捷徑」得到答案(診斷結果)。

(123RF)

這也衍伸出了另一個醫療倫理問題,也就是患者不願透露的隱私資訊(如年齡、身高、體重),是否也已經可以從影像中被AI所破解?

早期發現AI的不公平,早期修正

回頭看看科學史,醫學的偏誤其實已存在相當長的時間。早期在進行藥物臨床試驗時,因為白人占了試驗人口的大多數,例如在1997年,研究指出白人占了臨床藥物試驗的92%;儘管到了2014年,白人仍占了臨床試驗的86%,導致藥物的效果往往對白人的療效最好,在其他族群的副作用也較少被研究。另外根據調查也發現,醫療人員對於不同種族的患者會給予不同的對待,進而造成醫療資源的分配不公平。近年AI的發展,有人認為有機會給予醫療正義一道曙光,不懂種族歧視的機器似乎可以老實地依照所見到的資料,採取客觀的標準,並進行公正的判斷。但我們的發現卻指出,AI竟然也不經意學到了利用種族去做「主觀」決策的本事,且不只是醫療影像判讀系統,連風險評估系統,甚至是生理訊號量測儀器,都有發現類似的問題,不禁令人懷疑究竟AI的出現是否將加大族群間醫療不公平的現象。

幸好,一切發現得夠早!我們在FDA核准更多AI醫療產品前釋出警訊。雖然目前還無法明確的知道AI判斷種族的依據是什麼,也還沒有一個可以完全消除判斷偏誤的方式,但已經成功呼籲臨床AI開發者應該重視這個議題,在使用這些系統的人也應該更加留心思考每個判斷結果背後可能產生的偏誤。至今,已經有愈來愈多的學術研究者和公司投入AI模型偏誤消除的技術發展,愈來愈多的資料和演算法透過自願公開分享使用機制,作為不同研究者間交互驗證的資源。我們也發現論文發表或醫療軟體落地使用的審查機制中,逐漸加入「公平性」或「透明性」為其中兩項重要的評估標準。期許在大家共同的努力之下,未來AI帶給社會醫療照護的提升,不只是效率和準確性,也能讓族群間的分歧降到最低。

延伸閱讀
Gichoya, J. W., et al. (2022). AI Recognition of Patient Race in Medical Imaging: A Modelling Study. Lancet Digit Health, 4, e406–14.