可移植文件格式(PDF,PortableDocument Format)是一种由Adobe Systems开发的
文件格式,用于以一种独立于
应用程序、
硬件、
操作系统的方式共享和查看文档。PDF 文档可以包含
链接和
按钮、表单字段、
音频、
视频和业务逻辑,而且布局和格式在不同的设备和操作系统上保持一致。
定义
可移植文档格式是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。每个PDF文件包含固定布局的平面文档的完整描述,包括
文本、
字形、
图形及其他需要显示的信息。PDF文件通常由矢量图形、文本和位图图形构成。PDF文件除平面的文本和图形外,还可能包括逻辑结构元素,注释、表单、图层、富媒体(包括视频内容)等交互元素,使用U3D或PRC的三维对象,以及多种其他数据内容。PDF规范提供了启用这些功能时所需的加密功能、数字签名、文档附件和元数据等。
发展历史
技术起源
PDF源自1991年Adobe Systems共同创始人John Warnock发起的The Camelot Project,目标是使任何人都可以从任何应用程序中捕获文档,将这些文档的电子版本发送到任何地方,并在任何计算机上查看和打印它们。到1992年,Camelot已经发展成PDF。
发展历程
Adobe Systems在1993年免费提供了PDF规范。在万维网及HTML文本尚未兴起时,PDF在桌面出版工作流技术当中很受欢迎。PDF起初为Adobe所控制的专有格式,直到2008年7月1日才被官方以开放标准发行,并由国际标准化组织以 ISO 32000-1:2008 发布。此后,标准的控制权便移转到了产业专家志愿者所组的ISO委员会底下。2008年,Adobe在ISO 32000-1 发布了公共专利许可,对于制作、使用、销售及发布PDF兼容的应用所需的专利,皆赋予买断式授权。
PDF 1.7 含有一些Adobe所定义的专有技术,如Adobe XML表单结构(XFA)和JavaScript中对Acrobat的扩展。这些技术被 ISO 32000-1 引用为对于该规范之完整实现不可或缺且规范性的,但是它们并没有被标准化,其规格也只有发布在Adobe的网站上。
2017年7月28日,发布了 ISO 32000-2:2017(PDF 2.0)。ISO 32000-2 不将任何专有技术当作是规范性引用文件。
2020年12月14日,发布了 ISO 32000-2:2020(PDF 2.0)。在2017版本的基础上包括了对规范性引用的澄清、更正以及其他的一些重要更新。
GB标准化
2009年3月13日发布,2009年12月31日起正式实施的国家标准《文献管理 长期保存的电子文档文件格式 第1部分:PDF1.4(PDF/A-1)的使用》由TC86(全国文献影像技术标准化技术委员会)归口,TC86SC5(全国文献影像技术标准化技术委员会电子影像技术应用分会)执行,主管部门为国家标准委,标准号为GB/T 23286.1-2009。
基本原理
文件内容组成
PDF文件通常混合了矢量图形、文本和位图。PDF的基本内容包括:
在近期PDF标准修订中,PDF文档还支持链接(文档内部或网页)、表单、JavaScript(可通过Acrobat 3.0的插件启用),或者其他任意类型的能用插件控制的可嵌入内容。
PDF 1.6支持互动式3D文档嵌入PDF——3D绘图可用U3D或PRC及其他多种格式嵌入。
文本
文本在PDF中以页面内容字符串流中的“文本元素”呈现出来。一个文本元素指定字符应在指定位置描绘。字符用所选字体源的编码指定。
矢量图形
PDF中的矢量图如同在PostScript当中一样,是由路径组成的。路径通常由直线和多项的贝兹曲线组成,但也可以从文本的外廓构建。不同于PostScript,PDF不允许带直线和曲线的单一路径去组合文本外廓。路径可被描绘、填充或用于剪取。描绘和填充可用任意图形状态中的色彩集。
位图
PDF中的位图(称作Image XObjects)由带相关字符串流的字典呈现。字典描述了图像的属性和包含图像数据的流。少见的是,位图可能会作为一个内嵌图像被直接嵌入于页面描述。图像通常出于压缩的目的进行过滤。PDF中支持的图像过滤器包含了常用的过滤器。
相关技术
PDF主要通过三项技术实现:
1.派生自PostScript页面描述语言的子集,用以生成和输出图形。
2.字体嵌入/替换系统,可使字体随文件一起传输。
3.结构化的存储系统,用以绑定这些元素和任何相关内容到单个文件,带有适当的资料压缩系统。
PostScript是一种运行于解释器以生成图像的页面描述语言,不仅能处理图形,也具有标准编程语言特性。PDF很大程度上基于PostScript,但进行了简化。PDF相比较于PostScript存在以下优势:
1.PDF包含已标记和解析的PostScript源代码,以在修改PDF页面描述中的项与修改所产生的页面造型之间直接保持一致。
2.PDF(自1.4版)支持真图形透明度;PostScript不支持。
3.PostScript是一种带有隐形全局状态的解释型语言,因此PostScript文档中所有先前的页面必须经过处理以决定后续页面的正确的表现。而PDF文档中的每一页不受其他因素的影响,PDF查看器允许用户迅速跳转到文档的最后一页,而PostScript查看器需要在能够显示目标页面之前继续地处理所有的页面。
PDF中使用的字体与文档一起嵌入。这意味着无论在给定计算机上安装哪种字体,都应始终正确呈现。 创建PDF文档的程序将从字体中删除不必要的数据(例如度量和未使用的字符),因此文件不会变得过大。 PDF支持所有常见的字体格式,例如TrueType和Type 1。
技术特点
跨系统跨设备的一致性显示
PDF文件可以在不同的操作系统和设备上保持一致的显示效果,其中的矢量图形可以无限缩放而不失真,字体也在任何设备上都能正确显示。此外PDF文件可以嵌入到网页中,用户可以直接在浏览器中查看。
PDF的安全性
在处理电子文档时,安全保护是日常工作的重要一部分。PDF文件可以使用密码保护,限制用户操作,例如防止打印、从文档复制文本和图像、修饰文档,或者添加或删除文本注释等。
元数据
PDF 文档包含 XML 格式的文档元数据。元数据包括关于文档及其内容的信息,如作者姓名、关键字和版权信息,它们可供搜索实用程序使用。文档元数据包含(但不限于)也显示在文档属性对话框的“说明”选项卡中的信息。可以使用第三方产品来扩展和修改文档元数据。
应用
PDF由于其跨平台和设备的能力,以及对文档格式的精确保持,被广泛应用于各种场景:
① 文档分享与交换:PDF文件可以精确地保持原始文档的布局、图像和文本格式,适合发送给他人查看或打印。
② 电子书籍:许多电子书以PDF格式发布,便于读者在不同的设备上阅读。
③ 法律和官方文件:法律文件、合同、政府发布的公文等经常使用PDF格式,以确保文件的正式性和完整性。
④ 学术研究:学术论文、期刊文章和学术资料常用PDF格式分发,以确保格式的一致性和专业性。
⑤ 在线出版物:杂志、新闻简报和其他在线出版物经常以PDF格式发布,以便读者下载和阅读。
⑥ 图形设计和排版:设计师和排版师使用PDF格式来传递设计稿和页面布局,因为PDF可以精确地保持设计元素的位置和质量。
⑦ 无纸化办公:企业使用PDF格式来减少纸质文档的使用,实现文档的电子化管理和存储。
⑧ 归档和备份:由于PDF文件体积相对较小且易于阅读,它们常用于文档的长期归档和备份。
⑨ 数字签名和安全性:PDF文件可以被数字签名,确保文件的完整性和来源的可靠性。此外,PDF文件可以加密,保护敏感信息不被未授权访问。
专业的PDF格式
PDF有一些变体格式,属于PDF格式的子集,其中PDF/A和PDF/X当前是ISO标准。这些专业格式对所使用的技术或内容存在一些限制。
PDF/A
PDF/A标准(ISO19005-1:2005)为在图书馆,国家档案馆等机构中长期存档的文件定义了一套规则。它还需要“符合标准的阅读器”以某种方式,使用嵌入字体,使用颜色管理等,对PDF/A的限制包括:
PDF/A有两个级别:
PDF/A-1b(B级合规性)要求可以对文档进行精确的视觉复制。
PDF/A-1a(A级合规性)要求文本可以映射到Unicode,并且除了要求精确的视觉再现之外,还要记录文本的顺序和结构。
PDF/X
PDF/X标准是印刷行业图形交换的ISO标准系列,其中最新的是PDF/X-5(ISO 15930-8:2010)。它定义了许多限制:
版本摘要
PDF完全向后兼容(可以将PDF版本1.0文档加载到为PDF1.7设计的程序中) 并且大部分向前兼容(为PDF 1.0编写的程序通常可以加载PDF 1.7文件)。
参考资料
ISO 32000.Document management — Portable document format — Part 2: PDF 2.0.
ISO 32000.Document management — Portable document format — Part 2: PDF 2.0.