可携带文件格式_计算机术语

可携带文件格式

计算机术语

可移植文件格式（PDF，PortableDocument Format）是一种由Adobe Systems开发的文件格式，用于以一种独立于应用程序、硬件、操作系统的方式共享和查看文档。PDF 文档可以包含链接和按钮、表单字段、音频、视频和业务逻辑，而且布局和格式在不同的设备和操作系统上保持一致。

定义

可移植文档格式是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。每个PDF文件包含固定布局的平面文档的完整描述，包括文本、字形、图形及其他需要显示的信息。PDF文件通常由矢量图形、文本和位图图形构成。PDF文件除平面的文本和图形外，还可能包括逻辑结构元素，注释、表单、图层、富媒体（包括视频内容）等交互元素，使用U3D或PRC的三维对象，以及多种其他数据内容。PDF规范提供了启用这些功能时所需的加密功能、数字签名、文档附件和元数据等。

发展历史

技术起源

PDF源自1991年Adobe Systems共同创始人John Warnock发起的The Camelot Project，目标是使任何人都可以从任何应用程序中捕获文档，将这些文档的电子版本发送到任何地方，并在任何计算机上查看和打印它们。到1992年，Camelot已经发展成PDF。

发展历程

Adobe Systems在1993年免费提供了PDF规范。在万维网及HTML文本尚未兴起时，PDF在桌面出版工作流技术当中很受欢迎。PDF起初为Adobe所控制的专有格式，直到2008年7月1日才被官方以开放标准发行，并由国际标准化组织以 ISO 32000-1:2008 发布。此后，标准的控制权便移转到了产业专家志愿者所组的ISO委员会底下。2008年，Adobe在ISO 32000-1 发布了公共专利许可，对于制作、使用、销售及发布PDF兼容的应用所需的专利，皆赋予买断式授权。

PDF 1.7 含有一些Adobe所定义的专有技术，如Adobe XML表单结构（XFA）和JavaScript中对Acrobat的扩展。这些技术被 ISO 32000-1 引用为对于该规范之完整实现不可或缺且规范性的，但是它们并没有被标准化，其规格也只有发布在Adobe的网站上。

2017年7月28日，发布了 ISO 32000-2:2017（PDF 2.0）。ISO 32000-2 不将任何专有技术当作是规范性引用文件。

2020年12月14日，发布了 ISO 32000-2:2020（PDF 2.0）。在2017版本的基础上包括了对规范性引用的澄清、更正以及其他的一些重要更新。

GB标准化

2009年3月13日发布，2009年12月31日起正式实施的国家标准《文献管理长期保存的电子文档文件格式第1部分：PDF1.4（PDF/A-1）的使用》由TC86（全国文献影像技术标准化技术委员会）归口，TC86SC5（全国文献影像技术标准化技术委员会电子影像技术应用分会）执行，主管部门为国家标准委，标准号为GB/T 23286.1-2009。

基本原理

文件内容组成

PDF文件通常混合了矢量图形、文本和位图。PDF的基本内容包括：

在近期PDF标准修订中，PDF文档还支持链接（文档内部或网页）、表单、JavaScript（可通过Acrobat 3.0的插件启用），或者其他任意类型的能用插件控制的可嵌入内容。

PDF 1.6支持互动式3D文档嵌入PDF——3D绘图可用U3D或PRC及其他多种格式嵌入。

文本

文本在PDF中以页面内容字符串流中的“文本元素”呈现出来。一个文本元素指定字符应在指定位置描绘。字符用所选字体源的编码指定。

矢量图形

PDF中的矢量图如同在PostScript当中一样，是由路径组成的。路径通常由直线和多项的贝兹曲线组成，但也可以从文本的外廓构建。不同于PostScript，PDF不允许带直线和曲线的单一路径去组合文本外廓。路径可被描绘、填充或用于剪取。描绘和填充可用任意图形状态中的色彩集。

位图

PDF中的位图（称作Image XObjects）由带相关字符串流的字典呈现。字典描述了图像的属性和包含图像数据的流。少见的是，位图可能会作为一个内嵌图像被直接嵌入于页面描述。图像通常出于压缩的目的进行过滤。PDF中支持的图像过滤器包含了常用的过滤器。