文章專區

2025-12-15從野外到資料庫:植物標本的資料生命週期 528 期

Author 作者 薛絲尹/中央研究院資訊科學研究所研究助理 李思賢/中央研究院生物多樣性研究中心資訊人員

植物標本館是保存與研究植物多樣性的重要基礎機構,植物標本(植標)是一份具有時空脈絡的「植物證據」,是植物分類與命名的基礎,記錄某株植物在某時某地曾存在的樣貌,也反映採集者與典藏人員在不同時代所重視的特徵與分類觀點。

在研究資料管理中,有個概念稱為資料庋〔註1〕用(data curation),指的是資料的庋藏與使用〔註2〕,涵蓋從產製、篩選、匯入系統、保存、使用等整個資料庋用生命週期(data curation lifecycle)。此外,庋用(curation)的英文動詞 curate 源自拉丁語的curatus,有照顧的意思。每個典藏機構都有這麼一群人,日復一日地「照料、管理」這些資料,讓它們能被看見、理解與使用。

〔註 1〕依教育部重編國語辭典修訂本定義:「庋」為動詞時,發音為「ㄍㄨㄟˇ」或 guǐ,意思為「收藏、儲藏、擱置」。

〔註 2〕可參考網站「技術服務小百科 」的王梅玲撰寫之「資料庋用」(data curation)頁面:https://techserviceslibrary.blogspot.com/2015/01/data-curation.html

此次研究資料寄存所團隊走訪中央研究院生物多樣性中心植物標本館(Herbarium, Biodiversity Research Center, Academia Sinica, Taipei,下稱中研院植標館或HAST),與專案經理(後稱館員)劉翠雅與資訊人員李思賢訪談,了解他們如何讓一株植物如何從野外採集、烘乾製成標本,再到數位化入資料庫,最終成為能被公眾搜尋與引用的資料。


植物標本與應用

本文中的植物標本指的是最常見的腊葉標本〔註3〕,「腊」(音ㄒㄧˊ)指的是標本烘乾的步驟,一份腊葉標本包含:

• 植物本身,例如根、莖、葉、花、果、種子,愈完整愈好。
• 植物標籤:記錄採集者、採集號、採集時間、地點、生育地環境、植株物候(例如性狀,花、果期)等。
• 碎片袋:若標本在製作、保存期間脫落,確認碎片歸屬,放入碎片袋。

〔註 3〕也常被稱為「臘」葉標本。「腊」為「臘」的異體字,此處參考農傳媒「臺北植物園『腊葉館』常設展開展 沉浸植物學家製作標本的日常」文內解釋,使用「腊」以與食物「臘」肉的臘做區分。


▲一份山柑(Capparis sikkimensis Kurz subsp. formosana (Hemsl.) Jacobs)的腊葉標本,HAST館藏號:94701。(CC BY 4.0 研究資料寄存所)

植標館中特別重視「模式標本」(type specimen),它是物種命名的依據,當對任何一學名所指植物有所爭議時,以模式標本所依附的學名為準。同一號採集樣本可能會做成多份標本,但只有一份會被指定為「全模式標本」或稱「正模式標本」(holotype),具有命名上的權威地位。


腊葉標本常被用於植物分類研究,研究者可藉由標籤紀錄與標本形態進行鑑定與比較;近年來,館藏標本少量取樣也能被用於分子生物學研究。另外,館員分享了一個有趣的案例:國外學者利用跨時代同物種的標本分析物種花期的長期紀錄,以此結合氣候資料進行氣候變遷的研究〔註4〕。這些例子顯示,標本館透過長期保存與資料品質維護,使標本能被查詢、引用並持續支持科學驗證。

〔註 4〕 Miller-Rushing, A. J. et al., (2004). Herbarium Specimens as a Novel Tool for Climate Change Research. Arnoldia, 63(2), 26–32.

 

HAST植物標本來源

HAST的腊葉標本多由院內植物學研究者採集,1992年起在「台灣植物資源調查及資料庫建立」計劃支持下,以「全面採集」為主,用以建立臺灣植物普查資料、提升本土種原保護,並建立公開資料庫。當時數個機構研究人員遍訪全臺,使館藏從1992年的兩萬件在三年間增至八萬件,截至目前2025年,館藏超過有14萬件,可見當年採集與數量規模之大。現今因人力與資源有限,主要採集研究團隊的重點物種,方向相對明確。

除了採集外,還有館際交換與外界捐贈的方式。館際交換可補足各自蒐藏不足的植物類群或區域,也可分散保存風險,早期植標館之間是用傳真或書信往返來交流資訊,交換時,植標館會提出想要交換哪個科屬、類別或區域的標本,較無指定特定物種。很暖心的是,當HAST收到特別漂亮、資訊量豐富的交換標本,也會特別挑選高品質複份標本寄給對方。在外界捐贈的例子上,HAST現有14萬餘件館藏中約有9000件來自1992年業餘採集家王弼昭先生遺贈,主要為蕨類標本。種類與數量極為豐富,展現王先生對蕨類的熱愛與投入;他也留下許多分類註解和研究心得,讓後續研究者得以使用這些標本,陸續在分類學上有多篇論文發表。

▲ 館員為我們展示王弼昭先生採集的膜葉星蕨(Microsorum membranaceum (D. Don) Ching),HAST 館藏號:37777。(CC BY 4.0 研究資料寄存所)


一份植物標本的製作與資料整理

製作植物標本的流程始於採集,一株植物從野外採集、製成標本,到建檔匯入資料庫供人查詢,需要經歷多道步驟。這些標本需要館員細心整理才能成為好用的資料,有時可能會花上好幾年。另外,採集者在野外會用筆記本或其他媒介記錄採集號、植物性狀、棲地等資訊,若採集紀錄遺失,標本便失去身分,無法順利入館藏;標本與紀錄,缺一不可。

而在HAST的資料處理流程中,也涵蓋數位化的步驟,高解析度的圖檔(圖三)會一起放上資料庫,數位化需要投入大量人力與資金,但是是確保資料能被查詢、使用的重要環節。HAST曾外包掃描的工作或以單眼相機拍攝,現在則使用具後設資料自動辨識功能的非接觸平臺式掃描機,目前館藏約已有86%完成數位化。


▲ 數位化的植物標本(南洋厚壁蕨 Meringium holochilum (Bosch) Copel.)圖檔。(https://n2t.net/ark:/18474/b28w3996v,HAST館藏號 35794。)


植物標本資料與資料庫

自1995年起,HAST在網路上公開植物標本資料,是臺灣第一個上線的植物標本資料庫。早期的紀錄較簡略,僅有採集者、日期、採集地與學名。目前較詳細的欄位是1982年彭鏡毅博士進入中研院植物所後開始推動,讓植物資訊結構化成為可查找的欄位。

目前,HAST的植物標本資料大約可分為以下幾類:
1. 數位化的標本照片,如圖三。
2. 採集資訊:包含採集者、採集號、採集日期與標籤上最初判定的學名。採集號是採集者在野外為植物編號碼,一個採集號可能對應多份由同一株植物製作的標本。
3. 典藏資訊:包含館號、館藏單位、ARK 識別碼〔註5〕及引用網址。館號是標本館為每份標本給的編號,與採集號不同的是,館號一對一對應標本,能幫助標本館管理大量館藏,也避免不同採集者使用相同採集號時造成混淆。

〔註 5〕ARK 識別碼(Archival Resource Key)或翻為資源典藏碼。它是一種持續識別碼(persistent identifier, PID),可在整個網際網路上唯一識別並長期指向某個數位或實體資源,藉由這項技術,標本館能夠為典藏標本及其相關資訊建立長期穩定的連結,確保資料可被找到與引用。

4. 地理資訊:包含國家、行政區、經緯度等,提供採集地位置脈絡。
5. 標本資訊:例如生長型、植株高度、性狀描述等,它描述了植物在野外生長時的狀態、植物的特徵。
6. 棲地 / 環境:例如自然度、光度、濕度、植群型、地形位置等,說明植物所處的生長環境。
7. 鑑定紀錄:除了植物標本標籤上採集者給的學名外,後續不同研究者、不同時期的鑑定結果也會被記錄下來,這些差異與更新都構成分類學知識的重要部分。

詳細且結構化的資料奠定今日資料庫的基礎,在資料庫上線以來的30年間,系統也歷經多次轉換與更新。現今負責資料庫管理的李思賢在本章與我們共筆,分享他整理數位資料與建立資料庫的考量,讓我們更理解資料庫維運的細節。

HAST資料庫的重要背景之一,是與同屬中研院的台灣生物多樣性資訊機構(Taiwan Biodiversity Information Facility, TaiBIF)的合作關係,因此讓植標資料能夠達成資料流通(data mobilizaiton)與對外開放資料(Open Data),是系統設計時的重要考量。HAST資料庫系統採用國際通用性資料標準,將已數位化的標本欄位逐一對應到達爾文核心集標準(Darwin Core Standard, DwC)並匯入資料庫;經標準化的資料也可直接發布到全球生物多樣性資訊機構(Global Biodiversity Information Facility, GBIF),讓世界各地自然史研究單位與公眾自由取用。合適的資料標準不僅促進資料分享,也能建構更完整的知識圖譜(knowledge graph),在 AI 時代為資料取用者提供更精準有效的資料連結與應用。DwC作為生命科學領域廣泛使用的標準,能支援跨領域的資料整合。以下表格與圖四為植標標籤內容結構化並對應至DwC的欄位的例子。

除了資料流通與分享,自然史典藏資料的特性也是HAST資料庫設計的重要考量。資料庫特別帶入在DwC裡「verbatim」(逐字)開頭的欄位,忠實保留標籤原文,包括學名、地點與手寫紀錄。「逐字」欄位對尚未數位化而無圖檔的標本尤其重要;即便系統有提供影像,它仍是原始資料的可靠依據,也留下採集者、歷代鑑定者與資料處理人員的時代痕跡。

 
▲ 植物標本標籤結構化及對應達爾文核心集標準(DwC)欄位。(CC BY 4.0 moogoo)

例如地理資訊的通用標準隨時代不同而有所差異,資料處理人員不一定清楚採集者使用的標準,因此增加 verbatimLongitude / verbatimLatitude 欄位保留原始文字,可供使用者額外判讀的依據。此外,物種學名時常隨新的分類研究變化,標籤上的名稱也常出現省略、拼字錯誤或僅寫俗名(vernacular name)的狀況,導致後續難以與資料庫的學名對應,資料處理人員通常需選擇最接近的學名,因此以 verbatimIdentification欄位承載原始文字,能讓資料取用者參考,盡量減少系統與原始標籤學名不一致的誤會。

朝向永續資料的考量#目前資料庫系統的規劃也納入資料永續性的考量。參考多個國外植標系統後,HAST自建了一套功能不多但「剛剛好可以用」的系統。有鑑於過往對臺灣植標資料的觀察,多數單位安裝系統並不困難,真正的挑戰是伺服器的長期部署與維運。HAST資料庫在中研院生物多樣性研究博物館與TaiBIF辦公室的合作資源支持下,或能協助臺灣其他自然史典藏單位管理與維護資料,促進標本數位化,並提升資料的開放度。

基於這些理念,HAST新系統以「平臺」的概念設計,資料欄位能兼容不同機構與類群的標本,使缺乏資訊人力的標本館也能順利管理與分享資料。以HAST與屏東科技大學植物標本館(Provincial Pingtung Institute, PPI)的數位化合作計畫為例,PPI人員使用HAST資料庫管理資料,並由學生協作轉錄標籤資訊,完成後資料即可在系統內轉為DwC格式並直接發布至 GBIF,供全世界自由取得與使用。PPI所收藏的南台灣與綠島、蘭嶼的珍貴標本,也讓HAST資料庫內容更加豐富。

受到國外自然史典藏社群系統開發同時也重視成員互動交流的啟發,HAST系統也希望往同樣方向前進。目前系統在GitHub釋出〔註6〕,期待有更多有志之士參與使用與精進系統;同時也考慮加入數位發展部推動的Public Money, Public Code,將原始碼放上公共程式平臺〔註7〕,讓有限成本發揮更大效益,也更貼近開放科學的精神。

〔註 6〕GitHub repo:https://github.com/moogoo78/naturedb

〔註 7〕公共程式平臺:https://code.gov.tw

 

植物標本保存上的挑戰

訪談尾聲,我們走進標本館庫房了解標本保存方式。腊葉標本最怕潮濕、火災與蟲害,因此館方將環境維持在攝氏22度與約50%的濕度。為防蟲害,HAST每年進行兩次燻蒸除蟲,這是個大工程也是體力活,館員需爬上特高的鋁梯逐一開啟櫃門與紙箱(標本櫃高度可參照圖五),讓藥劑充分滲透,三天後再復位。即便如此,偶爾還是會遇到蟲害,像十字花科和菊科是昆蟲蠻愛吃的類別,花與果實會優先受害,而蟲的種類也有差異,像煙甲蟲比較大隻就比嚙蟲吃得快。


▲ 館員與中研院植標館的標本櫃,上面箱子放的是複份標本。(CC BY 4.0 研究資料寄存所)

走訪中研院植物標本館,讓我們清楚看到一份植物標本的資料生命週期。每筆資料都承載著採集者的觀察、資料處理者的判斷與系統維運者的努力,累積不同時代的分類觀點與技術脈絡。標本館人員的細緻工作讓資料被妥善照料、整理並轉換成可再利用的資源,使標本館成為知識累積與資料永續的重要節點。

 

延伸閱讀
1. 陳儷方(2022年10月5日)。臺北植物園『腊葉館』常設展開展 沉浸植物學家製作標本的日常。農傳媒,https://www.agriharvest.tw/archives/90092
2. 分類沙丘(2022 年6月14日)。有一種想見不能見的傷痛。分類沙丘,https://reurl.cc/aMa574)。
3. Iyusungu Su(2019年6月26日),認識植物世界的 Pokemon GO:植物標本是這樣製成的。泛科學,https://pansci.asia/archives/160344