繁簡切換

新聞業封鎖Internet Archive以防AI抓取

本文摘譯自 Andrew Deck 和 Hanaa’ Tameez 於2026年1月28日發表在尼曼新聞實驗室(Nieman Lab)的《News publishers limit Internet Archive access due to AI scraping concerns》

非營利服務平台 Internet Archive 出於保存內容的使命,使用爬蟲抓取網頁快照,並透過其 Wayback Machine 網站向公眾提供歷史快照。然而隨著AI機器人為了訓練模型在網路上大量抓取資料,這樣如同數位圖書館一般的存在,已被部分新聞媒體視為潛在風險。

《衛報》(The Guardian)調查誰在抓取其內容時,發現 Internet Archive 是最頻繁的爬蟲之一。《衛報》商務暨授權業務主管 Robert Hahn 表示,為降低AI公司透過這個逾兆筆網頁快照資料庫抓取內容的風險,他們決定限制 Internet Archive 存取其文章。

Robert Hahn指出,《衛報》已經採取措施,Internet Archive 的應用程式介面(API)無法直接抓取其文章內容,也把單篇報導頁面從 Wayback Machine 的搜尋網址功能移除,但地區首頁、主題頁等入口網頁仍能出現在網站上。

Robert Hahn特別擔憂 Internet Archive 的API,「許多AI公司都在尋找現成的、結構化的內容資料庫,Internet Archive 顯然會成為它們竊取智慧財產權(IP)的理想管道。」(Wayback Machine 因為資料結構沒有那麼完整,風險「相對較低」。)

《衛報》尚未記錄到有AI公司透過 Wayback Machine 抓取其網頁的案例,不過該報仍決定採取預防措施,與 Internet Archive 直接合作,進行調整。

Robert Hahn表示,Internet Archive對於他們的顧慮持開放態度,並強調《衛報》並未全面封鎖 Internet Archive 的爬蟲,因為他們支持該非營利組織的資訊民主化使命。不過在日常管理爬蟲機器人的政策中,他們將持續檢視這個立場。「這項決定更多的是關於合規考量,防範內容被偷偷抓取。」

對於《衛報》的決定,Internet Archive 創辦人 Brewster Kahle 表示:「如果出版商限制圖書館(例如 Internet Archive),那麼公眾將更難取得歷史紀錄。」他暗示,這可能削弱該組織對抗「資訊失序」的工作。

《衛報》並非唯一重新評估與 Internet Archive 關係的媒體。《紐約時報》(The New York Times)證實已「強制封鎖」 Internet Archive 的爬蟲。2025年底,他們已將 Internet Archive 其中一個爬蟲程式——archive.org_bot——加入列表,禁止其存取內容。

《紐約時報》發言人表示:「我們相信《紐約時報》以人為本的新聞工作具有價值,並希望確保我們的智慧財產權是以合法方式被存取與使用。我們封鎖 Internet Archive 機器人,是因為 Wayback Machine 在未經授權的情況下,無限制地存取《紐約時報》內容——包括提供給AI公司。」

2025年8月,Reddit 也宣布封鎖 Internet Archive,其保存了大量 Reddit 論壇、留言與個人資料檔案。這些內容與 Reddit 以數千萬美元授權給Google、作為AI訓練資料的內容相似。

Reddit 發言人當時告訴《The Verge》:「Internet Archive 為開放網路提供服務,但我們注意到AI公司違反平台政策(包括我們的政策),透過 Wayback Machine 抓取資料。在他們能保護自己的網站,並且遵守平台政策之前,我們將限制其對部分資料的存取,以保護使用者。」

Brewster Kahle 曾表示,Internet Archive 為了限制大量下載,正在採取一些因應措施。2025年秋天,他在 Mastodon 發文表示:「有許多檔案是提供給使用者瀏覽的,並不提供大量下載。我們使用內部限流系統、過濾機制,以及像 Cloudflare 這樣的網路安全服務。」

Internet Archive 目前並未在 robots.txt 中明確禁止任何特定爬蟲,包括大型AI公司的爬蟲。截至1月12日,archive.org 的 robots.txt 檔案仍寫著:「歡迎來到 Archive!請存取我們的檔案。我們希望您負責任地爬取。保持開放!」但就在我們詢問後不久,文字被更改成:「歡迎來到 Internet Archive!」

robots.txt(翻攝archive.org的robots.txt)

有證據顯示 Wayback Machine 過去確實被用於訓練大型語言模型。2023年,《華盛頓郵報》(The Washington Post)分析Google的C4資料集時發現,Internet Archive 是用於建構Google的T5模型與Meta的Llama模型的數百萬個訓練資料的來源網站之一。在C4的1500萬個網域中,web.archive.org 排名第187位。

2023年5月,Internet Archive 曾因一家 AI 公司造成伺服器過載而短暫下線。Wayback Machine 主管 Mark Graham 在2025年秋天受訪時表示, 該公司透過亞馬遜雲端運算服務(AWS)的虛擬主機,每秒發送數萬筆請求,試圖抓取其免費公開的資料。Internet Archive兩度封鎖其主機後,公開呼籲對方「尊重地」抓取資料。「我們與他們取得聯繫,他們後來捐款給我們,也道歉並停止這麼做。」Mark Graham說。

此次事件後,Robert Hahn 在 Internet Archive 部落格寫道:「想要大量使用我們資料的使用者,應該循序漸進地增加使用量。如果要啟動大型計畫,請與我們聯繫…… 我們樂意協助。」

在《衛報》限制 Internet Archive 抓取之後,《Nieman Lab》進一步檢視其他媒體是否有類似措施──觀察各家媒體的 robots.txt 頁面。robots.txt 就像網站的「門房」,告訴機器人哪些區域可進入、哪些不得進入。雖然它不具法律強制力,但可顯示網站是否不歡迎哪些特定爬蟲。

i
robots.txt
robots.txt 是網站放在伺服器上的文字檔,用來告訴搜尋引擎或網路爬蟲哪些頁面可以抓取、哪些不可以抓取。

為了進一步研究這個問題,《Nieman Lab》以資料記者 Ben Welsh 建立的1167家新聞網站資料庫為基礎,他定期抓取資料庫裡的 robots.txt 文件,我們從他的資料庫下載一份試算表。這份表格列出這些新聞網站封鎖的所有機器人,其中四個被AI爬蟲監測服務 Dark Visitors 辨識為與 Internet Archive 有關。(Internet Archive 未回應是否擁有這些機器人。)

調查發現,來自九個國家的241家新聞網站,明確禁止至少一個與 Internet Archive 有關的爬蟲。

其中87%屬於 USA Today Co. 旗下媒體,該公司前身為 Gannett,儘管 Gannett 僅佔原始名單中的18%,但其所有網站都封鎖了相同的兩個機器人:「archive.org_bot」與「ia_archiver-web.archive.org」,且皆是於 2025 年設定。

在2025年10月的財報會議上,Gannett執行長 Mike Reed 提及反爬蟲措施:「光是9月份,我們就在地方與 USA Today 平台,封鎖了7500萬個AI機器人,其中約7000萬來自OpenAI。」(Gannett 於2025年7月與 Perplexity 簽署內容授權協議。)

部分 Gannett 旗下網站甚至採取強制封鎖,在 Wayback Machine 上顯示:「抱歉,這個URL已被排除於 Wayback Machine 之外。」

部分 Gannett 旗下網站強制封鎖Wayback Machine。(翻攝Wayback Machine網站)

在同一樣本中,93%網站禁止其中兩個 Internet Archive 爬蟲;三家法國媒體(Le Huffington Post、Le Monde、Le Monde in English)禁止三個。這些網站也都封鎖了Common Crawl、OpenAI、Google AI等爬蟲。

Internet Archive長期承擔保存網路內容的重任,因為許多新聞媒體沒有能力自行保存。在美國沒有聯邦法規要求網路內容必須保存的情況下,Internet Archive 目前仍是最具規模的典藏力量。Robert Hahn 表示:「Internet Archive通常是良善公民。這是典型的『無心之過』——你出於好意做某件事,結果卻被濫用。」

有話要說

相關文章

【特稿】呈現不同聲音是代孕報導重要目的
【特稿】呈現不同聲音是代孕報導重要目的
華文媒體還在乎俄烏戰爭嗎?
華文媒體還在乎俄烏戰爭嗎?
馬經被視為香港賣得最好的報紙
馬經被視為香港賣得最好的報紙