PDF无处不在。合同、发票、简历、税务表格、用户手册、电子书、登机牌——你几乎每天都在与PDF文件打交道。但PDF到底是什么?为什么它成为了文档共享的默认方式?
PDF简史
PDF是Portable Document Format(便携式文档格式)的缩写。它由Adobe Systems于1993年创建,旨在解决一个令人烦恼的问题:文档在不同的计算机、操作系统或打印机上显示效果不同。在Windows的Word中创建的报告在Mac上打开时,可能会出现字体损坏、页边距偏移和图片丢失的情况。
Adobe联合创始人约翰·沃诺克设想了一种无论在哪里查看都能保持完全相同外观的格式。结果就是PDF,它建立在Adobe的PostScript页面描述语言之上。
多年来,PDF一直是由Adobe控制的专有格式。2008年,Adobe将规范作为开放标准(ISO 32000)发布,这一局面才发生改变。此举使PDF成为真正不受任何单一公司控制的通用格式。
PDF的底层工作原理
与Word文档或Google文档不同,PDF的设计目的不是方便编辑,而是在任何地方都能完全一致地显示。它通过以下方式实现这一点:
- 固定布局。 页面上的每个元素——文本、图片、线条、形状——都有由坐标精确定义的位置。在不同的屏幕上打开文件时,内容不会重新排列。
- 嵌入字体。 实际的字体数据存储在PDF文件内部。即使阅读者的计算机没有安装该字体,PDF也会按预期显示文本。
- 自包含。 图片、矢量图形和其他资源直接嵌入文件中。PDF不链接外部文件——它需要的一切都在内部。
- 基于页面的结构。 PDF组织为独立页面的集合,每个页面独立渲染。这与将文档视为连续文本流的文字处理器有着根本的不同。
小知识。 PDF文件内部结构为对象(文本流、图像数据、字体程序、元数据)的树形结构,通过交叉引用表连接。这就是为什么你可以立即跳转到任何页面而无需加载整个文件。
PDF/A——为存档而生
标准PDF可能包含随时间推移而出现问题的功能:JavaScript、外部链接、多媒体、加密层。为了长期保存,创建了名为PDF/A(ISO 19005)的变体。
PDF/A执行严格的规则:
- 所有字体必须嵌入
- 不允许JavaScript或可执行内容
- 不允许外部依赖
- 必须明确定义色彩空间
- 元数据必须遵循XMP标准
政府机构、法律部门和图书馆使用PDF/A来确保文档在数十年后仍可阅读。如果你需要存档一份50年后仍能完美查看的文档,PDF/A是正确的选择。
安全功能
PDF支持多层安全保护:
- 密码保护。 你可以设置打开文件的密码,或设置限制编辑、打印或复制文本的单独密码。
- 数字签名。 PDF可以进行加密签名,以证明创建者身份和内容未被篡改。
- 涂黑。 敏感信息可以被永久删除(不仅是用黑色方块覆盖,而是从文件数据中实际删除)。
- 加密。 PDF支持AES-256加密,在没有正确密码的情况下内容无法被读取。
请注意。 仅在PDF中的文本上放置一个黑色矩形并不构成涂黑。下面的文本仍然存在于文件中,可以被提取。真正的涂黑需要使用专门的工具来完全删除数据。
何时使用PDF(何时不该使用)
PDF是正确的选择,当:
- 你需要文档在每台设备上看起来完全一样
- 你想防止轻易编辑
- 你正在为长期存储归档文档
- 你需要数字签名或安全功能
- 你正在分发可打印内容(传单、海报、书籍)
PDF不是最佳选择,当:
- 文档需要协作编辑(使用Google文档、Word或Markdown)
- 内容应该在不同屏幕大小上重新排列(电子书使用EPUB,网页使用HTML)
- 你需要结构化数据提取(使用CSV、JSON或XML)
- 文件大小必须最小化(纯文本或Markdown更轻量)
| 特性 | Word/DOCX | HTML | EPUB | |
|---|---|---|---|---|
| 固定布局 | 是 | 否 | 否 | 否 |
| 可编辑 | 有限 | 是 | 是 | 是 |
| 移动端重排 | 否 | 部分 | 是 | 是 |
| 嵌入字体 | 是 | 部分 | 否 | 是 |
| 通用阅读器 | 是 | 否 | 是 | 否 |
| 长期存档 | PDF/A | 否 | 否 | 否 |
今天的PDF
PDF诞生三十多年后的今天,仍然是文档交换无可争议的标准。每年创建超过25亿份PDF。所有主流操作系统都内置了PDF阅读器。该格式已经发展到包括表单、批注、3D内容、多媒体和无障碍功能,同时始终忠于其最初的承诺:你创建的就是其他人将看到的。
深入了解
无论你需要压缩、合并、拆分、保护还是转换PDF文件,ToolK.io提供了一系列免费工具和深入教程,帮助你高效地处理PDF。
