每個 PDF 都攜帶著一層大多數人從未看到的不可見資訊。在頁面上的文字和圖片之外,PDF 還嵌入了中繼資料——結構化的資料欄位,記錄了誰建立了檔案、何時建立、使用什麼軟體,有時甚至更多。這個隱藏層曾引發政治醜聞、暴露匿名告密者,並在現代隱私法規下造成合規問題。
PDF 中存在哪些中繼資料?
一個典型的 PDF 包含六到十二個中繼資料欄位,其中大多數由建立它的軟體自動填入。
| 欄位 | 揭露的內容 | 範例 |
|---|---|---|
| 作者 | 作業系統使用者名稱或軟體授權持有者 | "Jean-Pierre Durand" |
| 建立者 | 撰寫原始文件的應用程式 | "Microsoft Word 2021" |
| 產生器 | 生成 PDF 的程式庫 | "macOS Quartz PDFContext" |
| 建立日期 | 檔案首次生成的時間 | 2026-01-15T09:42:00 |
| 修改日期 | 檔案最後一次儲存的時間 | 2026-03-02T14:18:00 |
| 標題 / 主旨 | 通常從來源文件自動填入 | "草稿 - Q3 營收 - 機密" |
| 關鍵字 | 標籤、分類或搜尋詞 | "內部, 董事會審查" |
| XMP 資料 | 擴展中繼資料:編輯歷史、工具鏈、權限 | 完整修訂時間線 |
某些 PDF 還會嵌入來源系統的檔案路徑(例如 C:\Users\john.smith\Desktop\Clients\AcmeCorp\proposal_v3.docx),一個字串就能揭露目錄結構、使用者名稱和客戶名稱。
小知識 嵌入字型也攜帶中繼資料。字型名稱、版本和授權類型可以指示用於製作文件的作業系統和軟體環境。
PDF 中繼資料造成的真實事件
中繼資料洩露並非假設性的問題。它們在新聞業、法律和政府中已造成嚴重後果。
- 伊拉克報告事件(2003 年) ——英國政府發布了一份關於伊拉克武器計畫的 Word 文件。中繼資料揭露了所有撰稿者的姓名以及完整的編輯歷史,顯示部分內容是從一篇學術論文中複製而來。這一發現引發了一場重大政治醜聞。
- 法庭遮蔽失敗 ——在多起美國聯邦案件中,律師通過在 PDF 文字上放置黑色方塊來「遮蔽」敏感資訊。但底層文字仍可選取和複製。中繼資料和文件結構暴露了本應隱藏的姓名、社會安全號碼和機密細節。
- 告密者身份識別 ——情報機構和企業利用作者欄位、建立時間戳記和產生器字串來縮小洩露文件的來源範圍,有時在數小時內就能識別出來源。
- 匿名招標違規 ——在公共採購中,投標通常必須匿名。PDF 中繼資料中包含作者姓名或公司名稱已導致取消資格和法律訴訟。
這些案例有一個共同特點:建立文件的人完全不知道中繼資料的存在。
中繼資料對 GDPR 和隱私的重要性
根據一般資料保護規範(GDPR),個人資料是任何可以直接或間接識別自然人的資訊。作者欄位中的全名、XMP 資料中的電子郵件地址,或檔案路徑中的使用者名稱都符合條件。
這具有實際意義:
- 對外分享 PDF 而未清除中繼資料,可能構成在沒有法律依據的情況下傳輸個人資料。
- 被遺忘權請求理論上可以延伸到存檔 PDF 中嵌入的中繼資料。
- 資料最小化——GDPR 的核心原則——要求你只分享目的所需的資料。隱藏的中繼資料欄位幾乎從未服務於接收者的目的。
經常與客戶、合作夥伴或公眾分享 PDF 的組織,應將中繼資料清理視為其資料保護工作流程的一部分,而非事後補救。
認知與實踐之間的差距
大多數人不知道 PDF 中繼資料的存在。即使在知道的人中,也很少有人在分享前檢查。這個差距部分是工具問題——標準 PDF 閱讀器將中繼資料埋在數層選單之下——部分是習慣問題:中繼資料是不可見的,所以很容易忘記。
在組織中,風險會倍增。一個員工傳送一份未清理的 PDF 就可能暴露內部結構、軟體授權、工作模式和同事姓名。將此乘以每年數百份共享文件,累積的曝光量就相當可觀。
提示 將中繼資料檢查變成一種反射,就像校對一樣。在每次對外分享前,檢查作者、標題和日期。只需幾秒鐘,就能防止你從未打算揭露的資訊傳到收件者手中。
延伸閱讀
要檢查你自己的 PDF 揭露了什麼,請試試 PDF 中繼資料檢視器。如需完整的分享前敏感欄位移除教學,請參閱 如何清理 PDF 中繼資料。這兩個工具完全在你的瀏覽器中運行——你的檔案永遠不會離開你的裝置。
