Každé PDF nese neviditelnou vrstvu informací, kterou většina lidí nikdy nevidí. Vedle textu a obrázků na stránce obsahuje PDF metadata — strukturovaná datová pole zaznamenávající, kdo soubor vytvořil, kdy, jakým softwarem, a někdy mnohem více. Tato skrytá vrstva způsobila politické skandály, odhalila anonymní informátory a vytvořila problémy s dodržováním moderních předpisů o ochraně soukromí.
Jaká metadata se ukrývají v PDF?
Typické PDF obsahuje šest až dvanáct polí metadat, z nichž většinu automaticky vyplní software, který jej vytvořil.
| Pole | Co prozrazuje | Příklad |
|---|---|---|
| Autor | Uživatelské jméno v OS nebo držitel softwarové licence | "Jean-Pierre Durand" |
| Creator | Aplikace, která vytvořila zdrojový dokument | "Microsoft Word 2021" |
| Producer | Knihovna, která vygenerovala PDF | "macOS Quartz PDFContext" |
| Datum vytvoření | Kdy byl soubor poprvé vygenerován | 2026-01-15T09:42:00 |
| Datum úpravy | Kdy byl soubor naposledy uložen | 2026-03-02T14:18:00 |
| Název / Předmět | Často automaticky vyplněno ze zdrojového dokumentu | "NÁVRH - Tržby Q3 - DŮVĚRNÉ" |
| Klíčová slova | Tagy, kategorie nebo vyhledávací termíny | "interní, přezkum představenstvem" |
| XMP data | Rozšířená metadata: historie úprav, řetězec nástrojů, práva | Kompletní časová osa revizí |
Některá PDF také obsahují cesty k souborům ze zdrojového systému (např. C:\Users\jan.novak\Desktop\Klienti\AcmeCorp\nabidka_v3.docx), které v jediném řetězci odhalují adresářové struktury, uživatelská jména a názvy klientů.
Dobré vědět I vložená písma nesou metadata. Název písma, verze a typ licence mohou naznačovat operační systém a softwarové prostředí použité k vytvoření dokumentu.
Reálné incidenty způsobené metadaty PDF
Úniky metadat nejsou hypotetické. Měly vážné důsledky v žurnalistice, právu a státní správě.
- Irácké dossier (2003) — Britská vláda zveřejnila dokument ve Wordu o iráckém zbrojním programu. Metadata odhalila jména všech přispěvatelů a kompletní historii úprav, což ukázalo, že části byly zkopírovány z akademické práce. Tento objev vyvolal velký politický skandál.
- Selhání soudních redakcí — V několika amerických federálních případech právníci „redigovali" citlivé informace umístěním černých rámečků přes text v PDF. Podkladový text zůstal vybratelný a kopírovatelný. Metadata a struktura dokumentu odhalily jména, čísla sociálního pojištění a utajené podrobnosti, které měly být skryty.
- Identifikace informátorů — Zpravodajské služby a korporace využily pole autora, časová razítka vytvoření a řetězce Producer ke zjištění původu uniklých dokumentů, někdy identifikovaly zdroj během několika hodin.
- Porušení anonymity veřejných zakázek — Ve veřejných zakázkách musí být nabídky často anonymní. Metadata PDF obsahující jméno autora nebo název společnosti vedla k diskvalifikaci a právním sporům.
Tyto příklady spojuje společný motiv: lidé, kteří dokumenty vytvořili, neměli tušení, že metadata existují.
Proč metadata záleží pro GDPR a soukromí
Podle Obecného nařízení o ochraně osobních údajů (GDPR) jsou osobní údaje jakékoli informace, které mohou přímo či nepřímo identifikovat fyzickou osobu. Pole autora obsahující celé jméno, e-mailová adresa v XMP datech nebo uživatelské jméno v cestě k souboru — to vše se kvalifikuje.
Má to praktické dopady:
- Sdílení PDF externě bez vyčištění metadat může představovat předávání osobních údajů bez právního základu.
- Žádosti o výmaz se mohou teoreticky vztahovat i na metadata vložená v archivovaných PDF.
- Minimalizace údajů — základní princip GDPR — vyžaduje sdílet pouze data nezbytná pro daný účel. Skrytá pole metadat téměř nikdy neslouží účelu příjemce.
Organizace, které rutinně sdílejí PDF s klienty, partnery nebo veřejností, by měly čištění metadat zařadit do svého pracovního postupu ochrany dat, nikoli ho považovat za doplňkovou činnost.
Propast mezi povědomím a praxí
Většina lidí neví, že metadata PDF existují. I mezi těmi, kteří o nich vědí, je málokdo kontroluje před sdílením. Propast je zčásti problémem nástrojů — standardní PDF čtečky ukrývají metadata hluboko v nabídkách — a zčásti problémem zvyků: metadata jsou neviditelná, takže je snadné na ně zapomenout.
Riziko roste v organizacích. Jediný zaměstnanec, který odešle nevyčištěné PDF, může odhalit interní struktury, softwarové licence, pracovní vzorce a jména kolegů. Vynásobte to stovkami sdílených dokumentů ročně a kumulativní expozice je značná.
Tip Udělejte z kontroly metadat reflex, jako z korektury. Zkontrolujte autora, název a data před každým externím sdílením. Zabere to sekundy a zabrání tomu, aby se k příjemci dostaly informace, které jste nikdy nechtěli zveřejnit.
Další informace
Chcete-li zjistit, co vaše vlastní PDF prozrazují, vyzkoušejte Prohlížeč metadat PDF. Kompletní návod na odstranění citlivých polí před sdílením najdete v tutoriálu Jak vyčistit metadata PDF. Oba nástroje běží zcela ve vašem prohlížeči — vaše soubory nikdy neopustí vaše zařízení.
