IBM开源新模型,可完美、快速转换PDF文档格式

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

将 PDF 文档转换为机器可处理的格式一直是一个极具挑战性的难题,这主要是因为 PDF 在格式、标准化和结构特征等方面存在着极为显著的差异。

例如,不同的 PDF 文档可能使用了各种各样的排版方式、字体样式和图像嵌入方式,有些可能还使用了特殊的字体编码或加密技术,进一步增加了数据处理的难度。

为了解决这些难题,IBM的研究人员基于PDF解析器、大模型、OCR等多种技术开发了Docling模型,可将PDF文档保留全部格式的情况下快速转换成JSON、 Markdown格式。

开源地址:https://github.com/DS4SD/docling

Docling模型使用了模块化设计方法,将整个PDF文档处理流程拆解为一系列连续的操作步骤,每个步骤都由专门的模块来执行。这不仅提升了执行效率和准确率,还极大增强了模型的扩展性和灵活性。

在Docling架构中,PDF后端扮演着重要角色。主要负责将PDF文档解析为机器可读的格式,包括提取文本内容及其在页面上的几何坐标,以及渲染每个页面的位图图像。为后续所有操作奠定基础。

为了应对PDF文档格式的多样性和复杂性,Docling提供了多种PDF后端选项。其中,基于qpdf库开发的自定义PDF解析器,是默认的PDF后端。为了满足不同场景的需求,还提供了基于pypdfium的PDF后端作为备选方案。

在PDF后端完成初步解析后,Docling的两个布局分析模型和表格结构识别模型,对数据做进一步处理。布局分析模型基于RT-DETR架构,通过在DocLayNet数据集上进行再训练,能够准确地预测页面图像上各种元素的边界框和类别。使Docling能够理解文档的详细布局,包括阅读顺序、图形位置以及表格结构的恢复。

表格结构识别模型TableFormer则主要用于识别表格结构,能够预测给定表格的逻辑行和列结构,并确定哪些表格单元属于列标题、行标题或表格主体。帮助Docling在处理表格时,能够应对各种复杂情况,如无边框线、空单元格、跨行或跨列的单元格等。

为了进一步提升Docling的处理能力,尤其是在处理扫描的PDF或页面上嵌入的位图图像时,Docling还提供了可选的OCR支持。通过集成EasyOCR这一流行的第三方OCR库,Docling能够识别和转写图像中的文字,从而扩展在文档处理方面的应用范围。

为了评估 Docling的转换效率,研究人员使用arXiv 的3篇论文和两本 IBM书总共225 页搭建了一个测试数据集。

在测试过程中,使用了两种可用的 PDF 后端,并分别设置了不同的线程预算,一次将线程预算固定为 4,另一次固定为 16,在苹果M3 Max笔记本和英特尔Xeon E5 – 2690平台上执行。

结果显示,Docling可以完美、快速将 PDF 文档转换为 JSON、 Markdown 格式,并且能够理解页面布局、阅读顺序,定位图表并恢复表格结构,还能提取文档的元数据,例如,标题、作者、参考文献和语言等。

在使用4线程时,处理时间为103秒,每秒处理页面数为 2.18 页,峰值内存使用为 6.20GB;使用 16 线程时,处理时间为177秒,每秒处理页面数为1.27页。

本文素材来源IBM论文,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区