首页
核心技术
产品体系
解决方案
动态资讯
关于我们
搜索
首页 动态资讯 行业资讯

大模型技术在智能文档处理中的应用(上篇)

来源:易道博识 发布时间:2023-06-15



ChatGPT爆火,大语言模型技术广受关注
ChatGPT是OpenAI公司基于大型预训练语言模型(Large Language Models, LLM) GPT-3.5发布的智能聊天机器人,因其惊艳的语义理解、智能会话和文本生成能力,获得了全球1亿月活用户的热情追捧。ChatGPT可以从海量未标注数据集中获得的信息,自动识别、总结、翻译、预测和生成内容。3月15日,OpenAI又发布了GPT-4多模态大模型,该模型能够支持文本和图像输入,与 GPT-3.5相比,其回答准确度、文字输入长度等各方面性能均有显著提升。
ChatGPT的问世,开启了新一轮的技术浪潮,标志着人工智能技术发展正式进入了大模型时代。模型的背后其实是“知识”。未来,“模型”将无处不在,人工智能与行业应用的结合会更加紧密,以模型驱动的发展范式变革正在快速形成,整个人工智能行业的生态会愈发完整。
可以看出,ChatGPT惊艳效果本质上来自于其背后的大语言模型技术。那么,究竟什么是大语言模型?大语言模型是一种基于深度学习算法的自然语言处理技术,旨在让计算机能够理解和生成自然语言文本。大语言模型的训练通常需要海量的文本数据(如维基百科、新闻文章、社交媒体等)和强大的计算资源。在训练过程中,大语言模型会通过学习这些数据中的模式和规律来调整自己的权重和参数,从而提高自身对语言的理解和生成能力。大语言模型的应用非常广泛,如语言翻译、问答系统、语音识别和文本生成等。

智能文档处理难点解析
智能文档处理(IDP,Intelligent Document Processing)是利用人工智能技术,自动从复杂的非结构化和半结构化文档中抽取关键数据,并将其转换成结构化数据的技术。常见的文档包括纯文本、带格式文档和富格式文档三种类型,如下图示例。

图1:常见文档类型

  • 纯文本

由大段纯文字组成,内容形式比较单一。通常利用自然语言处理技术,即可以完成语义理解和分析处理工作。
  • 带格式文档

如Word等带有格式的文档,其主要特点是包含有结构化的信息,可以直接解析出文档的物理元素和逻辑结构,进而转化为结构化数据。

  • 富格式文档
相较于纯文本和带格式文档,富格式文档更加复杂,除了各种形式的文本信息外,还包含有丰富的多模态元素,如表格和图片。富格式文档具有如下几个方面的特点:
· 多样性
富格式文档的多样性主要体现在格式、种类、内容和版式等维度。常见的格式有拍照图像、扫描件、可解析格式(如PDF)等,版式包括有固定、多版式和开放版式等类型。
· 多模态信息丰富性
富格式文档包含有丰富的元素信息,如文字、标题、段落、表格、图表、印章、签名、页眉和页脚。
· 领域差异性
不同领域的文档通常在种类、版式、语料和表达方式方面差异很大,如金融、地产、教育和医疗等,实际中存在着大量领域特定文档。
· 长短不一致性
从单张图片、单页文档到几十上百页的长文档,文档的长度通常跨度很大。
以上富格式文档特点,增加了通用IDP系统的处理难度。
关于更详细的智能文档处理难点介绍,请参见《浅谈智能文档处理技术和应用》文章。

在线留言