日前,由国家发改委批准,中国中小企业协会发起,联合中国银行业协会等国家级行业协会共同举办的第九届中国中小企业投融资交易会在北京顺利开幕。其中,“2021年金融服务中小微企业案例征集活动”结果正式揭晓,易道博识凭借“智能结构化平台”获得“2021年金融服务中小微企业优秀案例”荣誉。
本次案例征集活动得到了中国银行业诸多金融机构和科技企业的积极响应和火热参与,共收到308家金融机构和科技企业申报的478个案例。征集活动邀请了权威专家评委,对申报案例进行全方位的细致评审,提炼总结金融机构运用数字化手段打通融资难点、堵点,提升金融服务的覆盖率、可得性、满意度的各类尝试、经验和做法,有力树立金融机构支持中小微企业的典范。
解决90%以上的识别需求,且自主可控
随着银行业务的发展,越来越多的业务线中涉及的纸质凭证影像需要用到OCR自动处理,来进一步提升业务办理的效率。
这些凭证影像按照格式可以分为两类:一类是固定格式的凭证(户口本、港澳台身份证、外国人永久居留证等);一类是非固定格式的凭证(银行流水等)。其中固定格式业务类凭证占行内90%以上,这些凭证存在以下特点:
种类多:行内在各个业务受理过程中涉及到的凭证都在百种以上,甚至多达几百种;
更新频繁:不少凭证会随着业务需求或者监管制度的变化而调整格式。
基于以上特点,对凭证的OCR识别工作就特别复杂。目前存在两种解决方案:
一种是委托技术提供商做定制开发:按照凭证种类委托OCR厂商进行定制开发,逐一支持各类凭证;
另一种,是基于OCR底层能力进行自研:基于OCR厂商提供的底层识别能力(文字、表格、手写体、印章等识别能力),自己投入研发力量从代码层面开发针对各类票据的OCR功能。
不过,以上两种方式均存在一些缺陷:第一种方案,持续投入高,需要厂商就每一种凭证进行定制化开发。第二种方案,成本投入更高,不仅需要采购厂商底层能力,而且需要OCR专家团队的支持。因此,银行迫切需要一个能够减少后续投入,自主可控的解决方案。
易道博识智能结构化平台(简称平台),基于深度学习的计算机视觉技术,自动从非结构化数字信息中抽取目标数据。模板定制过程简单、直观,无需硬编码,全程可视化操作。只要将需要提取的信息选出加入训练即可,一个版式5-10分钟可完成,并且根据答案进行模板自行调整,不断提升结构化水平。
这种方案可以解决银行90%以上的固定格式业务凭证的识别,为银行已搭建的识别平台提供结构化方法,实现有效降低信息提取和录入的人力成本。
切实降本增效,3大系统日均人工录入量降至1%以下
在某银行上线OCR智能识别平台后,陆续有多个业务系统与OCR智能识别平台对接,各系统应用OCR前后对比图如下:
在集成智能结构化平台之前,很多业务系统需要多人录入数据,耗时长、效率低、出错率高;在应用平台之后,只需要将电子凭证上传至平台,平台可直接将电子化信息转换为可编辑数据并返回至业务系统,实现了录入信息的自动化,几乎完全替代人工录入,极大改善客户体验。
而且,平台通过对银行凭证的定制化训练,实现数据结构化目的,生成的模型仍在原OCR平台运行,架构保持不变。流程及步骤如下:
在智能结构化平台中,智能模板管理系统的主要功能是快速生成目标版式的结构化模板,为识别平台提供结构化方法,并在本系统中存储和管理这些模板。通过智能模板系统的可视化界面,可以定义模板的输出字段,并进行必要的图像标注工作,从而为智能模板算法提供元数据。
步骤一:模块配置界面
模块配置界面可以增加/删除模块,也能为模块增加/删除版式。
一个模型下可以定义任意数量的模块,单个模块下又可以包含数个版式。需要特别说明的是,模型的概念相当于一个统一的接口,通过固定的接口满足自己的识别需求。
模块的概念相当于样本的类别,如身份证、军官证、结婚证、完税证明、营业执照等。版式的概念相当于样本类别下不同的样式,如营业执照下有横版格式和竖版格式。
步骤二:标注页面
每一个版式都需要上传样本并标注,将需要提取的数据标记出来。
步骤三:模型构建-生成模型界面
所有样本标注完成后,便可以生成模型。
步骤四:模型的部署和测试界面
模型构建完成后,可以部署该模型到识别平台,并测试模型的效果。
智能结构化平台用于训练产生针对各种不同版式的OCR识别引擎,满足银行自动化、专业化、模块化、高性能等业务及技术要求,支持身份证、银行卡等固定版式的结构化,营业执照等多版式的结构化,银行回单、长途客运票等非固定版式的结构化,支持银行单据分类+识别等分类结构化。
银行各个业务受理过程中涉及到的凭证都在百种以上,甚至多达几百种,且更新频繁,不少凭证会随着业务需求或者监管制度的变化而调整格式。建设智能结构化平台可带来以下几点收益:
1、持续投入成本大幅减少,行内持续投入成本大幅减少,大幅节省人员投入,且准确率显著提高。
2、新增凭证的开发投产时间大大缩减,以往行内新增项目的从采购、厂商入场开发、到上线,整个流程需要2个月以上。上线智能结构化平台后,5-10分钟完成新增凭证模板定制,当天就可完成模型的投产使用。
3、行内完全自主可控,使用平台开发的OCR凭证模型可以形成自有知识产权。
智能结构化平台可实现行内新增业务凭证的OCR识别自主可控,从新增一个凭证模板定制、自训练到测试上线,完全可由行内人员自主完成,无需厂商干预。解决了行内新增板式OCR识别需要重新采购或厂商定制开发的工作和费用投入问题。
作为计算机视觉领域的重要分支,借助智能结构化平台可实现行内90%以上的固定版式业务凭证的自主定制,构建的OCR凭证模型识别率可达98%以。系统成熟且实施可行性高,系统开发完成后,将为各业务系统提供支撑服务,实现降低人工成本、提高工作效率的目标。