- 科技報導
- 焦點話題
文章專區
2025-08-152025年網際網路典藏會議報導
524 期
Author 作者
王家薰/中央研究院資訊科學研究所專案經理
*本篇文章與研究資料管理推進室共同刊載*

▲ 2025 年網際網路典藏會議現場照片。(CC BY 4.0)
在臺灣,網際網路典藏(web archiving)〔註〕仍屬相對冷門的議題,相關討論與實踐尚未普及。然而,放眼國際,許多指標性的國家圖書館、檔案館與博物館,早已在網際網路典藏領域累積多年經驗與技術發展,並積極推動相關政策與標準,致力於保存數位時代的重要文化與歷史資產。若想了解各國在網際網路典藏的最新發展趨勢、政策方向,或與來自全球的典藏專家共同探討前沿技術與實務挑戰,由國際網際網路保存聯盟(International Internet Preservation Consortium, IIPC)所主辦的「網際網路典藏會議」(Web Archiving Conference, WAC)是不容錯過的盛會。
〔註〕根據國家教育研究院「樂詞網」的說明,web archiving 在圖書館學與資訊科學領域被譯為「網站典藏」。然而在資訊科技領域,「網站」一詞通常涵蓋前端與後端系統,筆者認為此譯法與 web archiving 領域的實務操作與原意尚有些差距。現今網路資訊豐富多元,典藏的範圍也非整個網站或單一網頁,因此改譯為「網際網路典藏」較能貼切表達 web archiving 著重於網路世界內容爬取與保存的概念。
IIPC自2016年起舉辦「網際網路典藏會議」(Web Archiving Conference, WAC),至今已邁入第九年。今(2025)年4月由挪威國家圖書館(National Library of Norway)主辦,為期兩天涵蓋50場左右的議程及海報分享。本篇報導摘要回顧這次會議的部分議程與海報內容,聚焦於實踐工具、國家政策及具啟發性的案例分享,期望提供讀者掌握國際上網際網路典藏發展趨勢。

▲ 挪威國家圖書館。(CC BY 4.0 trc)

▲ 2025年會議由挪威國家圖書館主辦。本圖片為網站截圖。(IIPC)
因應網際網路典藏複雜化的策略:工具整合與技術創新
隨著數位內容日益豐富且多樣化,傳統的網際網路典藏工具已難以全面應對當前的挑戰。在本次會議中,來自美國的網際網路檔案館(Internet Archive)分享了他們如何透過開源軟體的合作與整合,打造出可擴展的多爬蟲網站收集工具組。他們指出,面對龐大而不斷變化的網路世界,沒有任何單一工具能夠應對所有技術與內容挑戰,因此採取多元策略與工具互補是現過去25年來網際網路檔案館與其他記憶機構合作,團隊逐步改進不同爬蟲工具的執行方式,不僅有效分散至多臺機器,更能避免落入爬蟲陷阱而浪費系統資源。同時,結合瀏覽器輔助式擷取技術,提升了對動態網站內容的收集能力。儘管Heritrix仍是大規模收集的基礎工具,但適時搭配Brozzler等其他開源工具,將能有效提升典藏的品質與效率。
同場,長期深耕網際網路典藏工具開發的Webrecorder團隊成員沃爾許(Tessa Walsh)與克雷默(Ilya Kreymer)介紹了他們的開源專案Browsertrix最新發展成果。Browsertrix為開放原始碼系統,任何機構或個人皆可自由安裝與布署。該系統以降低網際網路典藏的技術門檻為主要目標,特別強化了對當前高度互動與動態化網站的擷取能力。讀者或許曾在「拯救烏克蘭線上文化遺產」(Saving Ukrainian Cultural Heritage Online, SUCHO)計畫中,看見Browsertrix作為關鍵技術支援所發揮的成效。講者進一步說明,為因應不同的典藏需求,Browsertrix新增了可從特定國家、地區,甚至特定機構的IP位址範圍內進行網站爬取的功能,能夠有效回應與地理定位或資料管轄相關的特殊情境。此外,透過團隊開發的擴充功能,也能修補典藏過程中未完整擷取的頁面。最後,講者分享了一項近期的合作案例,Webrecorder團隊與「政權交接網站典藏計畫(End of Term Web Archive)」合作,發起新「Webrecorder US Government Web Archive」計畫,即透過Browsertrix工具擷取與典藏美國聯邦政府網站內容,涵蓋拜登總統任期結束時期,以及川普總統任期前後的重要網站,作為政權交接期間政府數位資料保存的一環。
這場次的分享不僅展示了在網際網路典藏技術上的創新實踐,也凸顯了跨機構、跨領域合作與開源精神對於推動網際網路典藏發展的重要性。隨著網路內容與技術不斷演進,典藏工具也必須持續進化,才能確保當代網路文化資產被妥善保存並傳承至未來。
芬蘭的國家級網路保存計畫與荷蘭的Podcast典藏實踐
在本次會議的海報分享中,芬蘭國家圖書館(National Library of Finland)介紹了他們最新的四年期計畫《線上材料蒐集計畫2025–2028》(Collection Plan for Online Material 2025–2028)。此計畫更明確界定了網際網路典藏的蒐集範圍、技術發展方向與資料使用方式,並特別強調典藏工作的透明性與持續性,展現對於數位文化保存的長遠承諾。
芬蘭國家圖書館依據《文化材料蒐集與保存法》(Act on Collecting and Preserving Cultural Materials, 1433/2007)規定,負責保存芬蘭境內出版的所有數位出版品與網站內容。自2008年起,網際網路典藏即正式納入該館法定任務之一,致力於透過系統性蒐集與保存,確保芬蘭的文化、知識與歷史記憶能在數位時代長久留存,供未來世代查考與研究。
計畫中提出三大核心蒐集方式,包括每年一次的「芬蘭網域採集」(finnish domain harvest),全面蒐集以.fi及.ax為網域結尾的網站資料;「持續性採集」(continuous harvests)是根據發布或更新的頻率,定期蒐集特定網站的內容以確保資料的完整性;「主題性採集」(thematic harvests)則針對特定社會現象、政治議題或全球性事件進行有計畫的蒐集,並涵蓋網站、影音平臺與社群媒體等多元內容型態。透過這樣多層次的蒐集策略,芬蘭國家圖書館致力於建構一個全面、具代表性且長期可持續的資訊網典藏體系,為未來的數位文化保存與研究應用奠定堅實基礎。
另一方面,由於Podcast已成為全球數百萬人每日接收新聞、政治、娛樂與流行文化的重要媒介,為了確保這些音訊故事能被長期保存,來自荷蘭聲音與影像研究所(Netherlands Institute for Sound and Vision)的斯諾倫(Jasper Snoeren)介紹了他們自2021年以來推動的「Podcast典藏計畫」,透過建立一套系統性的方法,保存荷蘭境內快速成長的Podcast音訊內容。

▲ 來自荷蘭聲音與影像研究所的斯諾倫介紹 Podcast 典藏計畫。(CC BY 4.0 Ally)
團隊決定不直接從播放平臺(例如Apple Music、 Spotify)蒐集,而是改採用Podcast RSS服務〔註〕進行蒐集,透過Listen Notes應用程式介面(application program interface, API)開發自動化程式,將欲保存的Podcast轉成MP3檔案,並爬取後設資料及逐字稿,再一併匯入典藏系統。只需將新節目加入播放清單,即可每週自動更新與保存最新集數。
〔註〕RSS(Really Simple Syndication)是一種用來訂閱和發布網頁內容的標準機制。它允許網站(例如新聞媒體、部落格或 Podcast)將最新的內容摘要、標題與連結,以結構化格式(通常為 XML)提供給使用者或應用程式自動擷取。
在選集過程中,該機構與創作者簽訂授權協議,並努力呈現荷蘭Podcast的多樣性,無論是專業媒體製作還是業餘創作都被納入保存範圍。這場分享為有意從事Podcast典藏的人提供了實用的實務指引,強調即使是日常生活中看似短暫的音訊內容,也值得被妥善保存,讓未來世代能夠聽見這個時代的聲音。
開放取用與應用的挑戰
在「新聞/報告的發現及取用」(Discovery & Access: News/Newspapers)場次中,多個機構分享了如何在各國的著作權與資料保護法規範圍內,提升網際網路典藏內容的可再利用性,並支持研究與知識生產。
網際網路典藏中的內容對研究與知識生產具有高度價值,但由於著作權及資料保護法規,大多數內容受到嚴格限制。挪威國家圖書館分享了他們如何提供超過150萬篇新聞文章的開放取用,透過API提供的後設資料與內容片段,將完整內容留存館內,兼顧開放性與法規遵循。這套系統支援計算型文本分析,符合FAIR資料原則〔註〕,並提供應用程式與程式碼筆記本,讓使用者能依需求建立專屬語料庫。
〔註〕FAIR 資料原則指的是資料應具備可被找到(Findable)、可被取用(Accessible)、可相互操作(Interoperable)、可再次使用(Reusable)的特性。
西班牙國家圖書館(Biblioteca Nacional de España, Spain)報告了自2020年發起的西班牙網際網路典藏計畫的結果,該計畫於過去五年進行大規模網站爬取,涵蓋所有西班牙電子期刊,提升找回失效期刊的機會。他們統計在2009∼2023年間消失的1800部期刊,包含700部「殭屍期刊」──意指僅在網際網路典藏中呈現,且資料破碎不完全的期刊。目前已成功找回500部期刊內容,並整合至國家圖書館目錄。下一步,這些期刊將依據《歐洲議會與歐洲理事會指令 (EU) 2019/790》(Directive (EU)2019/790 of the European Parliament and of the Council)被認定為「無商業流通作品」(out-of-commerce works),未來將開放公眾自由取用(open access)。講者指出,讓期刊得以回復並開放的過程極具挑戰,尤其需與歐洲聯盟智慧財產局(European Union Intellectual Property Office, EUIPO)合作,確認期刊是否真正消失,以確保合法合規。
來自臺灣中央研究院的研究資料寄存所團隊則報告一項正在進行的工作,關注已停止營運的臺灣《蘋果日報》網站,並將2022年由Archive Team〔註1〕所保存的典藏檔,轉換為符合國際新聞通訊理事會(International Press Telecommunications Council, IPTC)新聞標準格式的可再次利用通用格式Ninjs(News in JSON)〔註2〕。臺灣《蘋果日報》自2003年創刊,於2021年5月停刊,2023年3月全站離線,與香港《蘋果日報》的命運相似。這些報導的消失,使社會失去了一部分重要的歷史紀錄與公共記憶,影響教育、研究與知識生產。這項轉換工作,期許讓原先難以再現的新聞報導網站,能以符合FAIR資料原則的研究資料形式重生(圖一)。
〔註1〕Archive Team是個來自各行各業、關心數位遺產保存的熱血團隊,成員包括典藏者、開發者等,雖非正式組織,卻長期投入搶救即將消失的數位資料。
〔註 2〕JSON(JavaScript Object Notation)是一種輕量級的資料交換格式,具備簡潔的語法與高度可讀性,便於人類理解與機器解析,尤其適用於系統之間傳遞與儲存結構化資料。
圖一 | 中央研究院研究資料寄存所團隊報告關注已停刊的《蘋果日報》再利用。本圖片為網站截圖。(IIPC)
保存當代記憶的網際網路典藏
在本次會議中可見,各國的國家圖書館、檔案館與博物館在網際網路典藏領域的實踐不斷演進並積極推展。這些發展除了有國家法規作為支撐外,更持續投入技術創新與資料可再利用性的提升。會議強調,隨著網站技術與內容型態不斷變化,典藏工具也需不斷改進,並透過開源技術與社群合作,共同應對各類型數位資料保存的挑戰。整體而言,來自各機構的分享提供了具體的做法與實務經驗,突顯網際網路典藏不僅是一項技術工作,更是保存當代數位文化記憶的重要基石。
延伸閱讀
1. UNT Digital Library. International Internet Preservation Consortium (IIPC) General Assembly and Web Archiving Conference Collections. https://digital.library.unt.edu/explore/collections/IIPCM/.
2. IIPC WAC 2025 Presentations. (2025 Apri 9-10). IPC WAC 2025 Presentations.https://www.youtube.com/playlist?list=PL5AWM Cpp1Dii-VsLRMpXXChNhNQmCJahj.
3. Chuang, T-R. et al. (2025 Apri 17). Recently Orphaned Newspapers: From Archived Webpages to Reusable Datasets and Research Outlooks. https://pid.depositar.io/ark:37281/k5p3h9k37.