所谓纸质审计文件数字化,就是将以传统形式保存的以文字为形式、以纸为载体的被审计单位的审计档案及审计工作中形成的其他各种审计文稿转换成以数字为形式,以磁盘、磁带、光盘等为载体的计算机文件,从而予以保存和检索的过程。所谓纸质审计文件数字化系统是实现纸质审计文件数字化所需的硬件设备、软件及人力资源的有机结合。
一、实现纸质文件数字化的重点和难点
实现纸质文件数字化重点和难点在于对以扫描、数字照相等形式形成的计算机文件进行有效的整理。
从纸质审计文件转化而来的计算机文件并不当然地具有自由检索的特性,这可以通过与利用商用办公软件(如MsWord97.MsExcel97)形成的计算机文件作一个比较来详细说明。商用办公软件形成的计算机文件一般具有如下特点:(1)多页的审计文件存在于一个计算机文件中;(2)计算机文件名称有意设计而成,可以明确地表征文件内容;(3)计算机文件中的文字可以逐一识别、检察、定位及增删处理。对这种计算机文件可以进行一定程度的自由检索与显示。利用扫描仪扫描后形成的计算机文件一般是图像文件。这种文件有如下特点:(l)纸质审计文件扫描形成计算机文件后,每一员形成一个独立的计算机图像文件。(2)由干扫描是集中进行的,从而扫描形成的计算机文件的名称一般是包含特定描述文字的系列号码。(3)在每一个图像文件中,我们可以看到文字、图表、签章等内容,但这些内容对计算机而言都是图像元素的集合,不能直接识别出其中的文字。这样的计算机文件是不能直接进行检索的。
对扫描形成的计算机文件进行必要的处理,可以利用专门的文字识别软件对我们看到的文字进行进一步的识别。文字识别软件一般会将目标文字转化成办公软件所能处理的计算机文件,因而也可以按照处理办公软件形成的计算机文件的方法收入审计资料库。
但是在需要保留被扫描文件的“原始风貌”的要求下,比如需要保留纸质文件上的签章、图表、色彩等内容肘,文字识别软件很难发挥作用,文字识别工作是很困难的。只能逐一地为每个图像文件配置必须的关键词,才能有效地实现检索与输出。由于市场上并没有成熟的软件可以直接利用,为了检索扫描形成的计算机图像文件,只能通过灵活的组合运用多种数据库软件、编程软件、办公软件来完成。根据审计署制定的计算机技能培训规划,对数据库的综合操作和编程语言的应用并不是每一个审计人员的必备技能。因而向审计人员提供一套功能完善、使用方便的专门的审计文件数字化软件已成为当前急迫的任务。
二、审计文件数字化的实践
根据审计署党组关于加强“人、法、技”建设的精神,署各派出局在建立审计资料库方面做了许多工作。旅游侨务审计局在审计实践中积极探索,自行设计、开发、应用了“审计文件数字化系统”软件,取得了初步的经验,有力地推动了审计工作。
该软件能够处理未经文字识别处理的计算机图像文件,并将计算机文件的处理过程分解为索引过程和关键词过程。通过该软件的索引功能,能够完整地建立扫描形成的计算机文件的索引,标注出它们所属的纸质审计文件及其在纸质审计文件中的页码位置,从而将零散的计算机文件组织起来。通过该软件的关键词功能,审计文件数字化系统的维护人员可以在浏览已完成索引的每一个计算机文件的同时,为正在浏览的文件配置关键词。所配置的关键词应该是根据计算机图像文件的内容,预先设想检索者可能的检索要求而设定的。通过该软件的检索功能,能够为检索人员的检索过程提供一个操作工具:检索人员只要输入他所需要的文件应该含有的关键词,数字化系统就将含有该关键词的计算机文件按照纸质审计文件的组织方式,向检索者有序地显示出来。索引功能、关键词功能与检索功能是紧密衔接的,后一功能建立在前一功能充分实现的基础上,前一功能实现的质量直接影响后一功能的实现。
该软件同时能够处理办公软件形成的计算机文件。经过软件的索引功能将计算机文件收入资料库。之后只要审计人员输入检索所需的关键词,就能直接在计算机文件的正文中进行全面检索。对这类文件不需要专门配备关键词。