日前,由江苏省支付清算服务协会、山东省支付清算协会支持的2022金融科技创新发展论坛在遵义成功召开。易道博识CTO康铁钢先生受邀参会,与来自银行、保险、证券等行业的100余位行业专家,分享以数据驱动模型,可训练、可现场应用的赛博深度学习平台在行业中的应用创新。
行业痛点繁多,长尾凭证痛点难除
随着金融业务的发展,越来越多的业务线中涉及的纸质凭证影像需要用到OCR自动处理,来进一步提升业务办理的效率。从企业内部的数据类型来看,这些凭证影像按照格式可以分为两类:一类是固定格式的凭证(户口本、港澳台身份证、外国人永久居留证等),占整体90%以上;一类是非固定格式的凭证(银行流水等)。这些凭证存在以下特点:
1、种类多:行内在各个业务受理过程中涉及到的凭证都在百种以上,甚至多达几百种;
2、更新频繁:不少凭证会随着业务需求或者监管制度的变化而调整格式;
3、长尾凭证“鸡肋”:存在很多使用频率低,但总体数量大的凭证,这些凭证单独采购识别的价值不大但又无法解决;
4、数据安全:大多数情况下,隐私数据是无法对外的,如何在这种情况下做模型训练是客观需要面对的问题;
基于此类特点,对凭证的OCR识别工作就特别复杂。目前针对与此的解决方案都各有缺陷:要么持续投入高,需要厂商就每一种凭证进行定制化开发,要么需要采购厂商底层能力,而且需要OCR专家团队的支持,投入成本更高。因此,行业迫切需要一个能够减少后续投入,自主可控的解决方案。
自我数据闭环,赛博自成有机整体
赛博学习平台是易道博识基于深度学习自主研发的一站式机器学习训练平台。赛博平台集数据管理、数据标注、模型训练和模型应用于一身,提供及时、现场化的数据驱动模型应用解决方案。
论坛上,易道博识CTO康铁钢介绍道:“赛博平台充分利用了现有的经过长期迭代的基础模型能力,包括图像、OCR和NLP等,在少量样本的驱动下,利用迁移学习和小样本学习等技术,高效地完成增量模型的训练,生成最优的模型文件,并通过推理平台来实现模型的快速部署与生产应用。”
产品组成上,赛博平台由管理中心CyberCenter、数据标注平台 CyberData、深度学习训练平台 CyberLearning和深度学习推理平台 CyberServing几个子平台组成,各子平台依次承担平台管理、数据管理与标注、模型训练和模型服务的功能,各个子平台之间相互独立又有效配合,形成一个有机整体,从而有效支撑数据驱动模型应用的整体功能。
数据标注平台 CyberData
数据平台主要功能包括数据管理、数据处理、样本扩充、数据标注与采集。数据平台内置exLabeler标注客户端,提供强大专业的CV、OCR、结构化和NLP任务标注功能。同时,数据平台还支持单人和团队标注模式。
用户可以通过exLabeler客户端完成样本的标注。exLabeler支持CV、OCR、结构化和NLP等领域算法的标注。标注完成的数据集可以直接用于模型训练,或进一步做后处理(如图像处理、样本扩充等),然后再用于模型训练。
数据标注平台 CyberData工作流程
深度学习训练平台 CyberLearning
训练平台通过自身对于训练资源池的集中管理与分配,以及与管理平台的无缝对接,可以方便地实现训练基础设施的管理,从而减轻用户的管理维护工作。同时,利用自动超参搜索等技术,训练平台可以自动搜索到最佳性能的模型。
通过分布式训练与多框架支持,训练平台可以最大化利用计算资源,加速模型训练。同时,利用自动超参搜索等技术,训练平台可以自动搜索到最佳性能的模型。最后,对于训练所得的最优模型,训练平台支持一键部署到推理平台,实现模型的快速应用。
深度学习训练平台 CyberLearning工作流程
深度学习推理平台 CyberServing
推理平台主要完成各种识别功能的部署。业务系统通过调用推理平台提供的RESTful API提交图像并获得识别结果。整体上讲,推理平台产品需求可分解为模型管理、API过程定义、识别数据查看,接口统计和其它非功能项等部分。其中模型管理和API管理模块属于基础核心模块。
推理平台对同一模型不同版本的管理,并支持在模型服务中同时加载和运行多个版本的模型。推理平台还支持一个API绑定多个模型服务。模型升级时,用户可以选择先在部分服务中激活新版本的模型,完成测试验证后再升级其他服务。
深度学习推理平台 CyberServing工作流程
值得一提的是,赛博平台打造了数据驱动模型应用的闭环。推理平台支持对于自身所产生的生产数据根据不同的条件进行自动采集的功能,采集后的数据可以方便地导入标注平台,形成数据集,并支持进一步的数据处理与标注。标注完成的数据集可以用于模型的训练调优,从而得到性能更佳的模型,用于更新推理平台生产模型,从而形成一个完整的数据闭环。
《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出加快数字化发展,人民银行《金融科技发展规划(2022-2025)》中明确了“十四五”期间行业金融科技发展、数字化转型目标,要从治理体系、业务创新、技术和数据能力建设、风险防范等多维度提出重点任务,推动行业数字化转型落地实施。
如今,AI产业正逐步进入低技术门槛、低部署成本、各产业深度参与双向共建的效率化生产阶段。而作为支撑AI模型开发及落地的资源型平台,赛博平台可在多方面提升AI技术的价值释放。从总体上看,赛博平台可提供较为前沿的技术、符合业务场景的模型生产经验以及打包的数据与算法资源。
“具体而言,一方面,赛博平台一定程度上解决了规模化多场景的业务不断衍生出的长尾需求。另一方面,平台采用自动机器学习技术,很大程度上降低了机器学习的编程工作量、节约了AI 开发时间、减轻了对专业数据科学家与算法工程师的依赖,让缺乏机器学习经验的开发者用上AI,加快了开发效率”。
“我们通过产品和服务来获得行业认可。我们认真服务每一个客户,认真解决客户问题。”康铁钢说道:“我们会专注于人工智能领域,致力于人工智能领域的理论研究与应用开发,不断创新,为企业降本增效,通过人工智能提升社会的运行效率。”