首页
核心技术
产品体系
解决方案
动态资讯
关于我们
搜索
首页 动态资讯 行业资讯

大模型技术在智能文档处理中的应用(下篇)

来源:易道博识 发布时间:2023-06-15
一个专业的IDP系统至少需要具备如下两方面的能力,才能够满足富格式文档的智能化处理需求。
  • 具备多模态信息处理能力

由于文档本身多模态的特点,决定了IDP系统必须能够综合应用计算机视觉和自然语言处理等技术,包括图像处理、OCR、表格识别、文档解析、文本分析、文本理解等,对于文档中的标题、段落、表格、图表、印章、签名等多模态信息进行识别、提取和进一步的理解和分析。

  • 具备领域样本高效学习能力

由于不同领域的文档特征差异很大,为了在领域数据上达到业务可用的精度要求,IDP系统必须具备领域样本高效学习能力,能够生成优化后的模型,满足业务场景应用需求,为实际业务创造价值。

多模态能力和领域学习能力等方面的要求,决定了通用IDP系统是一个复杂的综合性软件系统,对于技术架构和系统设计提出了很高的要求。架构上,IDP系统需要能够兼容各种深度学习框架,并能够对于各种预训练大模型、多模态预置模型和用户自训练的领域模型实现有效的模型治理。并且,能够以统一的模型能力层,向文档应用层提供接口,满足上层智能化应用的调用需求。

大语言模型在智能文档处理中的价值与挑战
如下图,是一个常见的IDP系统模型技术栈。可以看出,LLMs仅仅是在自然语言文本这个模态上,作为预训练基础模型(如红色高亮部分)。相比于文本领域的处理能力,IDP系统中更加核心的功能在于文档图像和多模态信息的综合处理能力,包括OCR、表格识别、印章识别,以及文档分类、信息检索和文档抽取等。

图2 IDP模型技术栈

因此,对于IDP系统,大语言模型主要作用是帮助提升文档文本的理解和生成能力,尚无法完全替代IDP模型技术栈。
大语言模型在IDP系统的主要应用包括:
  • 提升文档分类精度

利用大语言模型强大的文本理解能力,提升文档中文本信息的分类能力,如段落和条款,进而提升文档信息检索和文档分类的效果。

  • 提供文档知识问答能力

相比于BERT等大语言模型,GPT大模型具备生成式的特点,能够更好满足文档知识实时问答的应用,帮助实现诸如“与你的文档聊天”等应用功能。
  • 提升信息抽取精度

大语言模型在文本信息抽取方面具备强大的能力,如从特定条款或段落中抽取实体、关系和事件,帮助提升文档关键信息抽取能力。
  • 提升条款和段落比对精度

利用大语言模型强大的理解能力,能够提升文档中不同条款、段落之间,以及与标准条款和段落的比对精度,改善文档比对效果。
大语言模型在帮助提升IDP文本处理能力的同时,也面临诸多挑战和风险,主要包括:
  • 模型输入长度有限,长文档处理能力受限

GPT-4具有最大32K Token输入和25K Word输入的要求,限制了对于长文档的处理能力,如几十上百页的合同和报告文件。这就要求必须通过前置的信息检索或段落抽取等预处理,提取出大篇幅文档中的相关部分,再输入大模型进行后续任务处理。
  • 生成式特点,导致模型输出无法溯源,准确性差

不同于BERT等大模型,GPT(Generative Pre-trained Tranformer)模型属于生成式语言模型,对于模型输出的信息无法进行精准溯源,即很多情况下无法准确获得输出内容在文档中的具体位置,这就增加了输出的风险性。在对于模型精准度要求高的场景下,如金融业务场景,往往极小概率的风险也会带来巨大的损失。因此,就需要通过模型优化和后处理等方法进行有效规避,避免非法输出问题。
  • 领域知识匮乏,影响模型效果
上文提到,文档的一大特征在于其领域信息的多样性和差异性。通用大语言模型通常基于公开的互联网语料训练获得,包括维基百科、新闻文章、社交媒体等,因此,缺乏对于领域知识的深度学习和理解。实际应用中,必须结合领域数据基于预训练语言模型进行学习和调优,以达到实际业务场景的使用要求,这也是IDP系统必须具备高效学习能力的根本原因。
  • 模型参数量巨大,对算力要求高
大模型通常具备较大的参数规模,如GPT-3.5有1750亿参数,对于本地化和私有化部署场景下的算力成本具有很高的要求。因此,这些场景下,必须进行模型轻量化处理才能真正落地使用,如通过知识蒸馏和模型量化等技术。

赛博结合大模型技术打造高效学习能力,提供IDP全新解决方案
赛博智能学习平台定位于一站式机器学习平台,基于预置的多模态能力和高效的领域数据学习能力,支持对于图片和文档等非结构化数据的智能化处理。在预置多模态能力的基础上,提供高效的领域数据学习能力,是赛博平台智能文档处理的核心优势。如下图,是关于赛博平台智能文档处理的核心能力介绍。 

图3 赛博平台智能文档处理核心能力

主要的预置多模态能力包括:
  • 图像处理

提供通用文档图像检测、区域分割和矫正、文档图像质量检测(模糊、反光、遮挡、拍屏、水印、复印、篡改、变形、切边和距离远等)、干扰和噪声去除等预置能力。
  • OCR
提供通用和场景OCR功能。通用OCR支持对于常见的文档图像要素的识别,包括文本(打印、手写、多语言)、表格、印章、勾选和签名等。场景OCR功能支持超过50种场景文档图像的识别能力,涵盖标准卡证、票据、表单和凭证。
  • 文档处理
提供通用的文档处理能力,包括文档格式转换、协议解析、版面分析、文档解析等,以及合同等场景文档抽取能力。
  • 自然语言处理

提供基础的自然语言处理功能,包括文本分类、信息抽取、通用问答、情感分析等。

如前节所述,文档具有领域特征差异大的特点,主要表现在不同领域文档之间在种类、版式、语料和表达方式等方面存在较大差异。因此,高效的领域文档学习能力,是IDP系统必备的基本功能,这也是赛博平台的核心功能之一。如下图是关于赛博平台高效学习能力的原理介绍。

 图4 赛博学习能力

赛博平台IDP学习能力以大规模语言模型和文档版式预训练模型为基础,通过下游任务中/小模型算法设计,结合领域数据,高效生成场景模型,并通过一键式模型部署和API生成,输出场景化AI能力,如文档分类、信息检索、文档抽取、段落比对等。依托机器学习功能底座,赛博平台能够提供文档数据集标注、模型训练、模型部署和API应用等一体化操作功能,支持用户通过可视化页面,高效完成领域文档数据的学习和模型能力的输出与应用。
另外,为了更好地满足业务场景需求,实现与业务深度融合,赛博平台支持模型输出规则和API代码补丁定制,能够在线实现模型输出格式转换、字段拆分与合并、噪声剔除以及其他高级后处理功能,有效解决模型输出与业务需求之间“最后一公里”的问题。
未来,易道博识将继续立足于金融、能源、通信等行业,围绕企业在日常业务运营、审核和监督管理、信息检索和风险管控等场景下的数智化转型需求,依托赛博智能学习平台底座,在满足客户数据安全的前提下,通过高效学习能力,将大模型等前沿技术与客户业务数据相结合,发挥巨大效能,通过与业务场景的深度融合,为业务赋能。
在线留言