文章專區

2024-03-01如何整合、管理海量資料? 數位經濟發展下的資料治理 651 期

Author 作者 莊宜勳/成功大學資訊工程系助理研究員;郭耀煌/成功大學資訊工程系特聘教授

Take Home Message
•資料治理是數位經濟的基礎,為確保資料能符合規範並達成預期目標,須先定義資料標準、規範、問責機制等原則。
•AI服務中資料治理須遵守服務穩健、隱私保護、公平、審計等準則,並預設組織內成員參與意願低、資料偏移等問題的解方。
•智慧城市的資料治理兼具資料整合、大量儲存、公私部門共享並提供多元服務,例如臺北大數據中心、新加坡資料生態系等機制。

 
隨著ChatGPT的浪潮席捲全球,大量基於人工智慧(artificial intelligence, AI)的服務出現,為人們帶來更便利的生活,也讓AI相關產業迎來了另一個春天。然而,這些服務之所以能順利運行,基本都建構於海量的資料之上。因此除了服務本身的營運之外,這些海量資料的取得、儲存、分享、管理都各自擁有複雜的產業生態,進而共同形成一個龐大的數位經濟體系。
 
事實上,早在2016年世界各國就注意到數位經濟的巨大潛力,於是當年的世界經濟論壇(World Economic Forum, WEF)便以「數位經濟再創新」作為全球資訊科技報告的年度主題,希望能藉由發展新興技術與應用促進數位創新,進一步推動數位經濟成長。而如何有效治理數位經濟的基石「海量資料」,也就成為了數位經濟的重中之重。
 

資料治理vs資料管理

一般來說,如何管好資料是一門傳統的學問。然而,有別於資料管理只討論管控資料的技術,資料「治理」考量的範圍更加全面,主要為制定各種原則和策略,以確保在資料的生命週期間(收集、儲存、使用、保護、建檔、銷毀)均能符合組織規範,並達成預期目標,包含:
 
定義標準與架構:定義資料與服務的結構。在資料結構方面,須先統整組織內所有資料,包括原生資料(raw data)與後設資料(meta data),例如標準化資料的術語、類型、格式、品質需求、因果關聯等資訊,以確保系統內資料的完整性與一致性,有利於後續的資料互通。在服務結構方面則是須定義此服務下所有參與的成員、群組設定、權責關係、權限需求。
 
定義資料的規範:資料治理最核心的部分就是定義規範與流程。一般來說,資料在不同的生命週期有各自應滿足的需求。例如在收集圖資時針對品質定義最低解析度;在儲存資料時先定義可得性(availability)與存取效能的需求;在使用資料時定義資料使用與呈現的方式;在保護資料時分別考量不同使用者的使用權限並保存存取紀錄;在資料建檔時定義索引方式;在銷毀階段定義資料清理(data housekeeping)的頻率與流程。
 
規劃問責機制並持續追蹤治理狀態:資料治理不僅是企業內部資訊部門與決策單位的責任,它的成效很大部分取決於全體使用者參與的程度。因此,資料治理尚需妥善的問責機制並確實執行,才能內化到公司治理中,成為企業文化的一部分。此外,不同組織對於資料治理的需求不盡相同,而資料治理的規畫更不可能一蹴而就,必須持續收集成員的回饋意見並加以修正,才能得到最適合的資料治理機制。
 

AI服務中資料治理的法規與準則

然而,在定義資料治理規範之前,也需要對於國內外相關法規有更進一步的了解。例如歐盟針對服務提供商提出了《一般資料保護規則》(GeneraData Protection Regulation, GDPR),要求保護資料內個人可識別資訊的隱私,另外又定義了被遺忘權(right to be forgotten)與資料可攜權(right to data portability),前者要求在資料擁有者要求之下,服務提供商必須確保能夠刪除所有個人資料的任何連結、副本或複製品,後者則要求能夠將個人資料以通用的方式轉移到指定的服務中。此外,歐盟議會發布了《可信賴人工智慧倫理準則》(Ethics Guidelines for Trustworthy AI),具體描述提供AI相關服務應遵守的行為準則,其中有多項與資料治理密切相關:……【更多內容請閱讀科學月刊第651期】