Search:
 
技术服务
  DjVu技术聚焦
  DjVu效果体验
  在线客户服务
 
 
 
 
 
 
 
 
首页 >> DjVu技术聚焦 >> DjVu文档压缩技术概述

DjVu文档压缩技术概述

阎忠武
哈尔滨城建档案馆

不管多媒体内容的重要性如何迅速增长,人类所积累的绝大部分知识、文化和教育资料等内容在今天仍然仅仅是以纸张的形式存在。将这些知识财富以忠实原貌的方式数字化,并实现快速访问和搜索,是将互联网变成真正的国际化图书馆的重要的一步。DJVU完全能为实现上述宏伟目标铺垫一条成功之路。DjVu最早由AT&T实验室发明并于2000年初转让给LizardTech公司。

DjVu是一种压缩技术,一种文件格式,一种特别为创建印刷物的数字图书馆而设计的传输平台。它基于一系列的高级内容分析技术来获得高压缩比、低内存消耗、快速重现与索引机制。

一页300dpi分辨率的典型的古代文献,其未压缩彩色扫描影像含有800万像素,文件尺寸大约为24MB。
诸如JPEG的传统压缩技术至少在以下几个方面表现不佳,无法胜任现实的需求。
(1) 典型的压缩文件尺寸介于400KB到2MB之间,这么大的文件对于互联网的远程访问而言是不切实际的。
(2) 尖锐的边缘(如字符的轮廓) 是浪费大量比特和出现令人不愉快的影像碎片的主要原因。
(3)如此之大的文件尺寸的重建速度相当缓慢,在客户端需要消耗大量内存资源用于影像的解码,而且在目前的浏览器技术中不容易实现放大、缩小和旋转。
(4) 字符没有从影像中剥离出来, 因此无法实现OCR、索引和搜索。
(5) 没有为多页文档预留约定, 因此除非使用像PDF那样的容器式格式进行封装实现多页文档,但由此又增加了降低效率的一层结构。

而DjVu系统消除了所有这些问题。它能够处理二值文档、低色彩影像、照片和其它连续色调影像、扫描彩色或灰度文档,还包括从诸如Postscript或PDF的电子文件中产生的影像。二值文档的编码使用一种称之为JB2的技术。它能在文档中建立一个重复形状(如字符)的库,对这些形状在每页出现的位置进行记录。低色彩的影像也是以此方式压缩,只不过多了每页的调色板和彩色索引信息的记录。连续色调影像的压缩使用的是种叫做lW44的基于小波理论渐进式的算法,它在信噪比的控制上与JPEG2000是一致的,但其解码/重建速度对内存的利用率很高,速度比JPEG2000的最快模式还要快2~3倍。

扫描获取的彩色影像被分解为前景层和背景层。前景层包含作为二值或低色彩影像的文字和低色彩线条图形,使用JB2对其进行保持最大分辩的压缩,因此保存了文字轮廓的锐利和可读性。背景层包含图片和纸张纹理,使用IW44对其进行降低分辨率的压缩。被前景遮掩的背景区域采用平滑插值以达到最小的编码代价。前景/背景分层器首先探测出对比反差大的区域,然后对其采用有关色彩的一致性、几何形状、编码的代价大小等多项标准进行过滤。

由PostScript或PDF数字化产生的文档被转化成个使用流行的工具GhostScript的低级绘图命令清单。这个清单然后被翻译成一个非重叠形状的清单,这些形状接下来由系列启发性标准归入前景或背景层。这些层就可以像扫描文档影像一样进行压缩处理了。

DjVu 二值文档的典型大小为:5~30KB/页、300dpi,这要比使用G4(用于传真机、TIFF、PDF文件中的压缩格式)标准的文件尺寸小3~8倍。诸如图标这类{氏色彩影像的DjVu文件的尺寸通常比GIF格式小2倍,如果其中含有较多文字时,它甚至能比GIF小到10倍。照片的DjVu通常比JPEG格式小2倍,对于同样的SNR,它与JPEG2000的模式一样快。

IW44小波原理的编/解码令人感兴趣的方面是,它能够优化到允许使用者在进行放大/缩小旋转的同时对窗口可见区域进行实时的影像解码和重建。这样就允许将影像以压缩状态保持在客户端的内存之中,能够显示很大的影像而不会产生额外的内存需要。

扫描所得的彩色或灰度影像的DjVu文件通常为30~l00KB/页、300dpi,这要比JPEG小5~l0倍,比MRC/T.44或TIFF/FX小2~3倍。含有大量文字的数字化产生的DjVu文件比PDF或以300dpi的原始状态输出的Postscript文件小2倍,如果文档含有图片,那么它的尺寸更小。 DjVu文档通过一个非常小巧的WEB浏览器插件来观看,在所有平台上都有其对应的版本。DjVu设计唯一目标就是在所有环节上进行优化,最大限度地降低当使用者决定观看某幅影像时与其到达屏幕显示出来之间的延误。它使用的智能缓冲技术的多线程软件结构允许文档部件按需进行加载和预加载。影像页按需加载,无需预先下载,无需字节服务器帮助,便可随机访问全部文档的任何影像页。文档页部件 (指前景/背景层等)按顺序下载,一旦它们抵达完毕,便由独立线程进行影像重建。这样就实现了渐进式影像重建和精细化。当前正在显示的影像页的后继页是预加载和预解码并自动缓冲的,因此大大减少了页面跳转的延误。DjVu阅读器具有"无模态"的图形接口,它允许仅仅操作鼠标或键盘就能实现影像的快速缩放、旋转和页间跳转。

前景层能够进行OCR,结果可嵌人DjVu文件作为可搜索的隐藏文本层。有工具能实现从隐藏的文本层中抽取文本并转换成XML格式,该XML格式包含了每个字和它在相应页面中的边界框的坐标以及文档结构(页数、列、段落、行、字等)。超级链接、注释、页面缩略图和其它元数据也都嵌人了DJVu文档之中。使用免费的索引工具和一些PERL脚本语言,能够很容易地实现服务器端的全文本搜索功能。包括NIPS(Neural Information Processing Systems)学报(l3卷,14000页,400dpi,191MB)世纪字典(8卷)以及几个国家图书馆典藏品和来自世界各地的商业提供者的内容已经以DjVu格式发布到互联网上。成千上万的DjVu使用者正在利用这一技术进行扫描内容的发布与交换。

DjVu可以被看成是个文档传输的通用平台。包括全部IW44编/解码、调色板影像压缩器和多线程解码与重建(不包括最佳分层器和最佳二值压缩器)的大部分源代码都可以在遵循CPL许可下,以开放源码获得,并作为研究新的编/解码算法、分层与传输机制、察看接口、内容分析的平台。

参考文献
[l] LBottou,P.Haffer,P.Howard,PSimard,Y.Begio.andY.LeCun.High,qualitydocument,image,compression with DjVu.Journal of Elec-tronic Imaging,7(3):410-428,1998.
[2] LBottou,P.Haff.P.Howard,andP-Vin-cent.Unsystemedecompressiondimagespourladistrinutionc reticulairededocuments(DjVuAnimagecompressionsys-temfordistributingscanneddocumentonthejinternet)InProceedingsofCIFED,Confer-enceIntenationgaleFranrophonesurL'EcnitetleDocument,Lyon,France,July2000

 
东方道迩 | 联系我们 | 法律声明 | 隐私条款 | 设为首页 |  收藏本站  © Copyright Eastdawn 2007. All rights reserved
地址:北京市海淀区海淀大街8号中钢国际广场10层   邮编:100080   电话:010-62686799  传真:010-62686790