文章專區

2023-02-16研究計畫提案該如何準備資料管理方案?認識中研院「研究資料寄存所」 494 期

Author 作者 王家薰/中央研究院資訊科學研究所專案經理。莊庭瑞/中央研究院資訊科學研究所副研究員。

*本篇文章與研究資料管理推進室共同刊載*

無論是個人獨立研究、小型研究計畫、大型研究團隊或是跨領域跨機構的長期研究合作,都會蒐集並生產出樣態眾多、數量龐大的研究資料。近年來,研究資料管理(research data management, RDM)以及資料的審慎保存與日後取用等問題,逐漸成為研究人員必須面對的日常。「資料管理方案」(data management plan, DMP)該從何處著手?又該如何選用合適的研究資料儲存庫呢?去(2022)年12月下旬,中央研究院(以下簡稱中研院)舉行的「什麼是研究資料儲存庫?什麼是資料管理方案?為何您需要關心?」課程活動,針對這些議題做了初步探討。接下來我們將介紹此次的活動內容,進一步討論DMP撰寫時應注意的事項,並且認識中研院支持發展的「研究資料寄存所」(depositar)服務。

研究計畫新趨勢,為科研人員做好準備

本次課程活動內容由中研院資訊服務處、國際科學資料委員會中華民國委員會(CODATA Taiwan)〔註〕以及研究資料寄存所計畫團隊共同籌辦;講師皆來自中研院的研究資料寄存所計畫成員。此次基礎課程主要授課對象以中研院人員為主,同時接受院外人士報名。課程內容包括系統操作,顧及流程設計及人員互動,所以採實體課程 方式舉行。報名相當踴躍,110個名額悉數額滿,出席率約七成,中研院院內、院外參與人數比約二比一。

研究計畫新趨勢,為科研人員做好準備本次課程活動內容由中研院資訊服務處、國際科學資料委員會中華民國委員會(CODATA Taiwan)〔註〕以及研究資料寄存所計畫團隊共同籌辦;講師皆來自中研院的研究資料寄存所計畫成員。此次基礎課程主要授課對象以中研院人員為主,同時接受院外人士報名。課程內容包括系統操作,顧及流程設計及人員互動,所以採實體課程方式舉行。報名相當踴躍,110個名額悉數額滿,出席率約七成,中研院院內、院外參與人數比約二比一。

各學科領域的研究者在提出研究計畫時,逐漸出現一些研究資助機要求他們需遵循已發布的資料政策,詳細說明在計畫執行期間,蒐集、記錄、管理、保存研究資料的方法,並規劃研究資料的釋出與再次使用。舉例來說,美國白宮「科學與技術政策辦公室」 (Office of Science and Technology Policy, OSTP)去年的新政策,要求聯邦政府資助的研究論文在刊登時需即刻開放取用(open access, OA)。而臺灣的國家科學及技術委員會(以下簡稱國科會)永續學門自2021年起開始試辦DMP,鼓勵研究團隊提交計畫書的同時提出DMP。顯而易見,DMP將逐漸成為研究人員需要面對的議題。

這次的課程分為上下兩階段,第一階段從研究資料儲存庫的發展趨勢開始,介紹研究資料寄存以及DMP, 以實務角度分享相關經驗。課程中以研究資料寄存所為例,解說研究資料保存與釋出的作法,以及它與研究資料管理的關聯。第二階段為線上使用研究資料寄存所,主辦單位規劃了資料集實作範例,由學員進行操作。最後則有問答時間,進行討論交流。

(123RF )

由趨勢到實務,資料寄存與DMP介紹

課程首先由中研院資訊所副研究員莊庭瑞分享研究資料儲存庫的現況與發展趨勢,莊庭瑞引用科研組織Science Europe所發行的《國際合用的研究資料管 理實用指南》(Practical Guide to the International Alignment of Research Data Management)中〈可信賴的儲存庫選用準則〉(Criteria for the selection of trustworthy repositories)進行說明。內容包括持續識別碼(persistent identifiers, PIDs)的使用;後設資料 (metadata)的編寫目的及採用原則,如是否使用被(科學社群)廣泛接受的後設資料格式,以確保後設資料能否被自動擷取;以及在資料取用、使用授權、 資料保存等的考慮重點。

接著,由研究資料寄存所專案經理王家薰及技術經理李承錱介紹研究資料寄存所的功能。研究資料寄存所是中研院自2018年起建置並發展的通用型研究資料儲存庫(research data repository)。兩位講者以單一資料集(dataset)為例,述說一份完整的資料集應呈現的樣貌,進而檢視落實FAIR(findable, accessible, interoperable, reusable)資料原則的研究資料儲存庫會擁有哪些功能。他們也進一步說明研究資料寄存所團隊新開發的功能套件,已開放回饋至開放源碼社群,包含使用語意更精確的Wikidata關鍵字、空間資料預覽等功能,讓研究者的資料集能更容易被找到、被取用並再次被使用。

另外在DMP撰寫實務場次,專案經理何明諠透過資料生命週期(data lifecycle),說明DMP是一份描述在研究過程中如何關照資料的文件。DMP通常是在研究開始前撰寫並在研究中隨時修正,藉此使研究者能更有效地管理資料。目前知名的科研補助單位,如美國的國家科學基金會(National Science Foundation)、貝蒙論壇(Belmont Forum)等,皆要求計畫申請人必須在提案書中檢附DMP,才能取得補助資格。何明諠也引用 Science Europe 的《國際合用的研究資料管理實用指 南》,說明DMP的核心需求、撰寫指引,以及相關線上資源。

下半場的實作課程則由講師帶領學員線上操作研究資料寄存所的功能。李承錱帶領學員填寫一份資料集的完整後設資料,並完成資料集的上傳,檢視是否產生相對應的資料集預覽。課程也說明研究資料寄存所此資訊系統的資料API,可用程式介接進行資料的取用及分析。

綜合問答

在課程最後的綜合討論階段,與會者提出許多相當關鍵的問題,本文擇要挑選三題,將問答整理於下。

:研究資料寄存所與研究誠信之間存在怎樣的主要關聯?

:研究資料寄存所是一個研究資料儲存庫,因此這個問題可以擴及到研究資料儲存庫與研究誠信之間的關聯。現今論文發表後通常會受到挑戰,如支撐論文發現的資料在哪、所使用的分析方法為何、是否可供大眾檢視等。若要回應這類的挑戰,最好的方式就是透過研究資料儲存庫,提供研究資料及釋出分析資料所使用的程式碼。使用同樣的資料及程式,是否就會產出論文所呈現的結果,也就可驗證研究是否具「可再現性」 (reproducibility)。資料的公開釋出還有一個好處,可讓其他研究者使用不同的分析方法檢驗,也就是經由研究資料與分析方法的公開取得, 共同查驗可能的研究漏洞。所以研究資料儲存庫與研究誠信有非常密切的關聯,資料放置於公開的研究資料儲存庫,絕對有助於提升研究誠信。

:能否具體解釋FAIR原則中的「可相互操作」?

:「可相互操作」代表所釋出的資料是別人容易處理的,考慮到現今的處理大多是透過機器程式碼分析,也代表資料的格式等容易以程式處理。例如,當釋出一份表單資料時,若表單中某欄位的名稱命名為 「地點」,但「地點」這個語詞對不懂中文的人來說就不易了解,這時可尋找是否有用來標示「地點」的後設資料語彙或標準可用,例如使用W3C 的資料目錄語彙(data catalog cocabulary, DCAT)的spatial/ geographical coverage性質來標示,也應找尋伴隨後設資料定義的語彙。此外,欄位值的格式是否採用通用的資料格式標準,也會影響資料的可相互操作。例如在日期欄位上,應使用2022-12-21,而非民國111年12 月21日,後者除了對不懂中文的學者不友善之外,也增添資料交換使用的難度,因為需先將民國111年透過程式對應至西元2022年。通常我們會希望透過程式來處理不同來源的許多資料,資料來源若是採共同的語彙與格式,就會非常方便進行分析處理。

:研究資料寄存所目前與國科會永續學門合作推廣 DMP,未來會擴展到其他學門嗎?

:研究資料寄存所計畫經費來源有三部份:中研院資訊科學研究所、中研院資訊科技創新研究中心,以及國科會永續學門。研究資料寄存所自2019年獲國科會永續學門專題研究計畫補助,永續學門也希望這項計畫涉入DMP的研究與導入。目前僅知道永續學門有 DMP的試辦計畫,其他學門的狀況並不清楚。但無論如何,只要對研究資料管理、資料管理方案、研究資料寄存有興趣的任何計畫團隊,都歡迎與我們聯繫。永續學門目前有幾個整合性計畫,我們也前去拜訪、彼此交流。

「研究資料寄存所」相關資源

提供研究資料寄存服務、傾聽研究者的資料管理需要、彙集並分享各領域研究團隊的資料實務經驗與所遭遇的資料議題,是研究資料寄存所計畫團隊的目的。這次課程的投影片放置於以下網址,讀者可以自由下載使用:https://pid.depositar.io/ark:37281/ k5p8d6q2b。本次課程更多資料如參與人員問卷調查等,可詳見「研究資料管理推進室」(research data management hub, RDM Hub)網站:https://rdm. depositar.io/。

若想了解更多研究資料管理議題,請持續關注「研究資料管理推進室」後續資源與報導:https://rdm.depositar.io/,並訂閱線上論壇。此外,也可以追蹤研究資料寄存所的Twitter帳號:https://twitter.com/_ depositar/,獲取最新消息。

延伸閱讀
1. 何明諠、莊庭瑞(2022年12月22日)。美國政府資助的研究發表 被要求立即開放取用,公共取用推廣歷史性的勝利。Rearch Data Mangement Hub。https://reurl.cc/nZ9j4v
2. 李明旭(2021)。科技部永續學門資料管理方案(Data Management Plan)試辦計畫。2021研究資料管理工作坊。https://reurl.cc/rZpOer
3. Science Europe(2021年7月)。國際合用的研究資料管理實用指南― 增訂版(杜文蔚等譯)。研究資料寄存所。(原著出版於2021年1月) https://reurl.cc/MXaxQv