首页
核心技术
产品体系
解决方案
动态资讯
关于我们
搜索
首页 动态资讯 公司新闻

一键部署,一键发布,易道博识智能结构化平台上线发布

来源:易道博识 发布时间:2021-09-27

信息抽取后的内容,被称为结构化数据。


在银行业务场景里,我们对关键信息的需求量远远超过了对于完整信息的需求。如果说OCR技术是对文档进行数字化处理,那么基于自然语言处理的信息抽取是对数字化信息进行结构化处理,而只有结构化后的信息才可以使得数据产生价值。

易道博识推出智能结构化平台

基于深度学习的自然语言处理技术,易道博识推出了智能结构化平台,通过深度学习的方式,自动从海量的非结构化数字信息中抽取目标数据。该平台的推出,一定程度上解决了银行在OCR识别方面的需求比较旺盛,和后续针对每个新板式的OCR识别需求均需重新采购的问题。

智能结构化平台使得行方后续针对板式相对固定的待识别凭证,可以通过已有的通用识别引擎和智能结构化平台可以自主解决非结构化信息的提取工作,达到自主可控和节省成本的目的,解决行方新板式OCR识别需要从新采购及定制开发的工作。

直接拖拽票据上信息,即可完成结构化提取


一键部署,一键发布

在OCR识别流程中,原始图像经过文本定位和文本识别,在确定了文本位置和文本内容之后,将识别内容通过智能结构化平台进行数据结构化,若数据的模型评价通过,则可进行模型发布。


在易道博识智能结构化平台中,会提前将训练图像通过OCR和标注,生成数据模型并集成模型库,用于应对生产中的结构化提取。如果过程中出现异常数据,平台会自动将数据抓取并修正,重新进行模型生成,完成一个内部闭环。并且根据闭环进行模板自行调整,不断提升结构化水平。

这个部署过程,在业务人员视角下是“无感”的,,模板定制过程简单、直观,只要将需要提取的信息选出加入训练即可,一个版式5-10分钟可完成,即可实现一键部署。

此外,单个智能模板服务器可支持模板标注、构建、管理、部署功能,在统一的负载均衡器支持下,能够进行水平扩展,因此,可以根据客户的需求支持不同的并发量。

智能模板管理

在智能结构化平台中,智能模板管理系统的主要功能是快速生成目标版式的结构化模板,为识别平台提供结构化方法,并在本系统中存储和管理这些模板。通过智能模板系统的可视化界面,可以定义模板的输出字段,并进行必要的图像标注工作,从而为智能模板算法提供元数据。


智能模板操作过程主要包含六个的步骤:

选择/创建模板:选择已有的模板或者创建一个新的模板。

定义模板输出字段:为上一步创建的模板设置输出字段。

标注样本:为创建的模板增加图像文件,并标注其中的数据,用于告诉程序哪个是想要的值。

构建模型:程序结合标注数据和样本的识别结果,生成结构化模型。

测试模型:程序使用新生成的模型进行批量测试,借助新模型对样本进行分类和结构化,进而生成测试报告。

发布模型:经过测试,模型效果良好则可以选择发布到生产环境中进行正式使用。

步骤一:模块配置界面

模块配置界面可以增加/删除模块,也能为模块增加/删除版式。

一个模型下可以定义任意数量的模块,单个模块下又可以包含数个版式。需要特别说明的是,模型的概念相当于一个统一的接口,通过固定的接口满足自己的识别需求。


模块的概念相当于样本的类别,如身份证、军官证、结婚证、完税证明、营业执照等。版式的概念相当于样本类别下不同的样式,如营业执照下有横版格式和竖版格式。

步骤二:标注页面

每一个版式都需要上传样本并标注,将需要提取的数据标记出来。

步骤三:模型构建-生成模型界面

所有样本标注完成后,便可以生成模型。

步骤四:模型的部署和测试界面

模型构建完成后,可以部署该模型到识别平台,并测试模型的效果。

智能结构化平台用于训练产生针对各种不同版式的OCR识别引擎,满足银行自动化、专业化、模块化、高性能等业务及技术要求,支持身份证、银行卡等固定版式的结构化,营业执照等多版式的结构化,银行回单、长途客运票等非固定版式的结构化,支持银行单据分类+识别等分类结构化。总而言之,可以支持银行80%OCR识别需求的自研能力。

随着产业信息化、数字化的土壤越发深厚,国内很多企业已经逐渐进入了电子化阶段。2020年之后,企业需要做的是电子化到结构化阶段的准备。但这个过程中,不同场景的技术仍然面临不同的问题,新的数字化技术趋势也在不断迭代。


总得来说,从非电子化到电子化、从电子化到结构化的转型,其实就是从获取数据、理解数据到运用数据的过程。

在线留言