当前位置:汉龙文献保护扫描仪 > 新闻中心 >
发布人:汉龙文献保护扫描仪     发布于:2019-04-26 16:20

  档案数字化是指“利用数据库技术、数据压缩技术、高速扫描技术等技术手段,将纸质文件、声像文件等传统介质的文件和已归档保存的电子档案,系统组织成具有有序结构的档案信息库。”档案的数字化可以节省档案存贮空间,缓解库房压力,也可以减少因对档案原件频繁使用而造成的磨损,妥善解决珍贵档案文献的利用问题,有利于保护档案原件,尤其是珍贵档案的保存。目前,数字化在档案事业中发挥着重要的作用,已成为档案工作发展的必然趋势。

  二、档案数字化与扫描技术

  档案数字化实现文本的输入,主要是采用扫描方式将纸质的文件与档案转换为数字化的形式。扫描加工是通过中高速扫描仪和专用扫描软件将整理和分检好的档案资料批量转化成图像文件,并自动实现图像压缩存储的过程。

  (一)国家规范中的有关标准

  档案数字化直接标准除《电子文件归档与管理规范》外,就是《纸质档案数字化技术规范》。这一技术规范指出,“扫描应该根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。”另外,“纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。”

  扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具体又细分为三种:“页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。”

  扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。因为高分辨率容易使文件遭到复制,基于此,国家规范中规定采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择≥100dpi。如遇到文字偏小、密集、清晰度较差等特殊状况,则可以适当提高分辨率。而需要进行OCR汉字识别的档案,扫描分辨率一般建议选择≥200dpi。

  (二)实际操作中的做法

  实际工作中,档案部门根据档案本身不同情况,一般都采用各类扫描仪进行扫描,数码相机则较少使用。另外,实际扫描中受档案状况或扫描设备所限,也存有一些暂时无法进行数字化转换的档案,如纸张过于破损、发脆,或者某些尺寸过大的图纸等。而这些只能等待设备或者技术的更进后才可以解决。

  色彩模式的选择是依据现有的设备以及档案本身状况而定的,可以遵守循序渐进的原则。比如杭州市档案馆在进行纸质档案数字化时,一期以黑白扫描为主,二期对红头文件及其他带有红章的文件进行彩色扫描,三期则全部进行彩色扫描。无疑,彩色扫描的层次更加丰富,清晰度更高,可以更真实地显示档案原貌。

  分辨率的选择与设备关系很大,在不同地区、不同部门也有所差别。如杭州市档案馆在纸质档案数字化的一期工程中,就将扫描分辨率定为300dpi,浙江省档案馆的数字化扫描分辨率一般在200~300dpi左右,有的高达600dpi;而在一些设备相对比较落后的部门与地区,其扫描分辨率大都是按照国家规范来设定的,甚至于很多部门还达不到200dpi。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。

  (三)扫描技术发展趋势

  扫描技术中最主要的是色彩模式选择和分辨率选择。

  色彩模式无疑会朝着彩色扫描发展,而分辨率的选择需要根据实际业务进行灵活设置。一般情况下,为了满足网络化查询利用,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些,具体参数可以根据扫描清晰度和质量因素进行综合选择。对于一些特殊的利用如承办展览等可以采用较高的扫描分辨率来进行。值得注意的是,分辨率的选择既不可过低,也不可过高。如福建曾采用了50dpi的扫描分辨率,虽然容量小、费用低,但是根本无法实现上网查询利用,等于做了无用功;另一方面,如果一味追求过高的分辨率,则会导致容量过大,对于网上资源的传播也是一种负担。

  档案数字化后还要考虑文字识别(OCR)的运用,一般来说,文字识别主要用于全文检索之用,而非真正将扫描后的图像文件还原为文档,因而,就这一点看,不要以OCR的识别率来设置扫描分辨率,《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率≥200dpi,这是一个比较中性的标准。

  三、数字档案的存储格式

  (一)文档数据的存储

  如何在数字化过程中将馆藏档案统一转变为某些具有国际或国家标准的电子格式,是档案数字化首先应该考虑的问题。

  《电子文件归档与管理规范》中推荐的通用文件格式为:文字型数据采用XML文档和RTF、TXT格式;扫描图像数据采用JPEG、TIFF格式。《纸质档案数字化技术规范》中规定:采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储;提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。从前者到后者,可看出存储格式是不断发展且多元的。

  1.文本型数据存储格式比较

  以下对常见的几种存储格式进行比较,其优缺点都比较显著。

  2.文档数据存储格式发展趋势

  电子文件的发展对电子文件的格式、元数据的封装及其管理提出了很高的要求,但决定文档格式是否具有长久可行的存储优势,主要取决于文档是否具有开放性。就电子文档而言,开放就意味着共享。从这个意义上说,XML文档格式是最具优势的,它具有自定义“电子文件类型定义”及封装元数据等功能,又具有很强的开发性,因而是一种具有生命力的存储格式。另外,随着网上期刊的增多,PDF和CAJ等格式逐渐显现出其优势,在以后的数字化档案存储格式中也会占有重要的一席之地。

  但是,某些格式如TXT、CEB等随着技术的发展,可能会变得不那么重要。TXT格式虽是国家规范中的推荐格式,但在当前的工作中已经较少使用;而CEB目前也只是在政府机关电子政务公文处理中使用比较广泛,《基于XML的电子公文格式规范》的出台将会进一步扩大其应用和影响。

  (二)图像文件存储格式

  1.各类存储格式比较

  扫描之后图像文件采用何种格式存储,是需要不断随技术发展和运用作调整的。目前看来,许多格式都可以作为图像存储之用,当然,究竟采用哪些格式,还要根据情况作选择。以下特作一比对。

  2.图像文件存储格式的发展

  上述格式虽然有着各自的应用优势,但由于档案数字化技术还不成熟,所以数字化后的格式一般还是采用国家规范中所推荐的TIFF、JPEG等常见格式。但随着技术的发展,一些新的格式还是显示了强大的发展后劲。特别是JPEG2000和DjVu两种格式。

  JPEG2000作为JPEG的升级版,其压缩率比JPEG高约30%左右,同时支持有损和无损压缩。JPEG2000格式有一个极其重要的特征在于它能实现渐进传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。此外,JPEG2000还支持所谓的“感兴趣区域”特性,可以任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。

  JPEG2000和JPEG相比优势明显,且向下兼容,因此可取代传统的JPEG格式。JPEG2000既可应用于传统的JPEG市场,如扫描仪、数码相机等,又可应用于新兴领域,如网络传输、无线通讯等等。JPEG2000在当前的档案数字化中并未得到应用,但随着档案信息网络传输的开展,这一格式也可以成为档案数字化的标准格式。

  DjVu是由美国电报电话公司实验室(AT&T Labs)于1996年开发成功的一项新的图片压缩技术,通过这项技术,几乎所有的传统印刷资料都可在网上以高速传播。DjVu具有1000:1的高压缩比,通过DjVu压缩格式,以300dpi的分辨率扫描的彩色页面可以从25MB缩小到30至80KB,而且图像质量十分优秀。它能分辨出文字及图片的部分,并且分别储存在不同层,再分别对每一层图像以最佳化的方式进行压缩,因此能产生最好的图像品质及最小的档案。这种技术将能得到清晰的文件图像,而又能保持原始文件的图像品质。

  同时,由于采用分层显示,而不是等到整幅图片都被解码之后才显示,也使得图片显示的速度大大提高,用户在两三秒之内就能够迅速看到文字,其他的图像信息也会在几秒钟之内陆续显示出来。这种网上高质量图像发布的体验在传统压缩格式上是无法实现的。DjVu下载后的图像直接储存在计算机的内存中,并且可以在浏览器上快速地对文件进行实时的移动、缩放。换句话说,DiVu能使人们只花很少的时间来扫描、储存及下载大量文件。

  目前,DiVu技术正在杭州市档案馆进行试点研究,尚未引入国家标准。但DjVu技术不论是在静态存储还是网上传输方面都具有相当的优势,且这一技术在图书馆界也早已得以采用,事实证明,DjVu技术同样可以用于档案数字化的工作中。

  • 文献保护设备

    文献修复

    文献脱酸

    虫霉防治

    清洁除尘

    馆藏环境治理

  • 文献保护服务

    文献修复服务

    文献脱酸服务

    虫霉防治服务

    清洁除尘服务

    馆藏环境治理服务

  • 文献保护技术

    解决方案

    技术分享

    标准规范

  • 汉龙文献保护中心 版权所有 | 地址:北京市朝阳区东三环北路3号幸福大厦B座815 站点地图