智能文档处理(IDP)是利用人工智能技术,自动从复杂的非结构化和半结构化文档中抽取关键数据,并将其转换成结构化数据的技术。IDP又称为认知数据处理(Cognitive Data Processing)或智能数据捕获(Intelligent Data Capturing)技术。众所周知,商业数据是企业数字化转型的核心。然而,现实中80%的商业数据都是非结构化格式,比如邮件、图片和各种企业文档,其中非结构化文档占据了绝大多数。据统计,到2025年,全球企业数据总量将达到175ZB。借助于IDP技术,企业能够实现文档自动化处理、文档语义理解、智能审核和数据智能分析等方面的功能,提升企业用户文档处理的效率和质量,为企业降本增效。从文档的结构特点上,我们可以将现实世界的文档划分为结构化、半结构化和非结构化三种类型。对应到版式特征上,分别是固定版式、多版式和开放版式三种类型。结构化文档具有版式固定的特点,同一类型不同样本之间没有差异,如固定版式的信息采集表、申请文件等。半结构化文档版式相对固定,或称为多版式文档,同一类型不同样本之间关键内容相同,但是往往内容出现的位置却不同,如不同供应商采购的送货单,每个供应商都不同,但是其关键内容都包含订单号、商品信息等。非结构化文档又称为开放版式文档,通常没有显著的版式特征,几乎是纯文本表达,虽然表达的内容相同,但是表达方式却差异很大。常见的如合同、简历、招标文件等。对于结构化和半结构化文档,由于版式相对固定,当前行业内普遍的做法是通过模板或深度学习模型的方法,完成分类和信息抽取等自动化处理,已经能够解决大多数应用场景的问题。但是,开放版式文档,由于其天然的诸多难点,给智能文档处理带来了很大的困难。如下表,是我们归纳的开放版式文档处理的主要难点。
表1 开放版式文档特点
如表1,相比于纯文本或固定和多版式文档,开放版式文档处理具有诸多难点。因此,智能文档处理过程必须综合应用计算机视觉(CV)、光学字符处理(OCR)、文档解析、自然语言处理(NLP)和文档信息抽取等关键技术,才能更好地实现自动化和智能化处理。计算机视觉(CV)技术
CV技术主要是对于文档图像进行各种图像处理,常见如图像去噪声、去干扰、图像增强、图像压缩、图像分割等。其处理目的主要是为后续OCR环节提供高质量的图像输入,以提升OCR的性能。同时,利用图像检测和分割等技术,可以实现文档物理版面解析。
OCR是将纸质文档、图片等非数字化文件中的文字内容转换为数字化格式的技术。当前主流实现上,借助表格识别、印章识别、勾选和二维码识别等技术,在OCR环节可以实现图像中所有通用对象(文字、表格、印章、勾选、二维码、签名等)的统一识别和输出,作为后续智能化文档处理环节的输入。
文档解析是在文档协议解析或OCR处理的结果上,通过版面分析、表格解析等技术,实现文档物理和逻辑结构的解析,得到文档内容的统一表示。以此作为进一步文档分类、信息抽取和文档比对等处理的输入。IDP通常需要能够支持所有格式的文档输入,包括图片、PDF、Word、OFD等,因此,文档解析环节需要能够解析以上各种格式的输入文件,将其转换成统一的表示形式,如JSON文件。
NLP是一种利用计算机技术对自然语言进行分析和处理的技术,常见的NLP任务包括分词、词性标注、句法分析、语义分析、文本分类、信息抽取、文档摘要、情感分析等。IDP中主要使用的NLP技术包括文本分类、文本信息抽取、语义理解等。通常的做法是将OCR输出或文档协议解析后的所有文本块进行拼接,得到文本序列,再通过文本分类、信息抽取等技术,实现文档的分类和信息抽取。另外,通过NLP技术,也可以对文档进行自动摘要、情感分析和智能问答等处理。
相比于纯文本,文档的最大特点是其富格式特点。因此,文档中信息抽取必须依赖于版面位置等视觉特征,比如从文档中的图表或表格中抽取信息,或者从特定版面位置区域的结构化信息块中抽取信息。相比于简单地从大段文本序列中做信息抽取,文档信息抽取技术难度更大。
图1 智能文档处理流程
该步骤主要针对Word、PDF等文档协议进行解析处理。
通过通用OCR识别模型,对输入的文档图像上的文字、印章、签名、表格等通用要素进行识别,得到文本和位置,以及表格结构化数据。
利用版面分析技术,定位出文档图像上所有的标题、段落、表格、图表、页眉、页脚等版面信息。再利用标题和段落等信息,做文档逻辑结构分析,得到文档结构。
基于版面和目录分析的结果,结合文档协议解析或OCR的结果,利用自然语言处理等技术,进行文档关键信息抽取。
利用预设的规则,对抽取出的信息进行校验,包括数据格式检查、预设的审阅规则检查等。
通过智能文档处理技术,可以对大量文档进行分类和标签化,从而实现文档的快速检索、内容推荐和归档处理等功能。
智能文档处理可以帮助从文档中抽取关键信息,如关键的短语、实体、事件等。这些信息在知识图谱构建、智能搜索、智能比对、智能问答等应用场景中具有重要的价值。
利用智能文档处理技术,可以对文档进行自动摘要,生成简洁、精炼的摘要内容。此外,还可以根据用户输入的关键词或短语生成特定主题的文章,以满足用户需求。
通过智能文档处理技术,可以构建智能问答系统,为用户提供及时准确的文档内容信息。未来随着大模型等人工智能技术的不断发展,智能文档处理将会在各个行业的应用场景中不断普及化。赛博智能学习平台定位于一体化机器学习训练平台,集成了对于结构化和非结构文档的智能化处理功能,包括智能文档分类、文档解析和文档信息抽取等。能够支持合同、法律文书、招投标文件等各种开放版式长文档的智能化处理。基于平台自定义模板和自训练模型能力,通过现场模板定制、模型标注训练的方式,能够形成即时可用的文档AI能力。如下图,是赛博智能学习平台智能文档处理的基本流程。
图2 赛博智能学习平台智能文档处理流程
未来,易道博识将继续针对金融、能源、通信等行业客户,在业务运营、审核和监督管理、信息检索和风险管理等场景下,围绕数字化、自动化和智能化需求,依托赛博智能学习平台,为企业打造强大AI底座,助力企业建设基于AI模型全生命周期的标准化、一体化生产运营体系。赛博智能学习平台以私有化部署、现场训练的形式满足客户对数据安全要求,通过与业务系统深度融合,满足各业务场景在图像处理、OCR、智能文档处理和NLP等方向需求。赛博智能学习平台持续将AI大模型等前沿技术与行业数据深度结合,在技术与业务场景之间搭桥铺路,让AI技术快速在场景中落地,在应用场景中产生价值,带动产业发展和升级。