极客前沿

极客资讯 正文

PDF解析成AI“滑铁卢”?揭秘文档格式背后的技术暗战

2026-02-24 00:30 | The Verge AI ...

当最先进的AI遇上最“顽固”的PDF

去年11月,美国众议院监督委员会公布了2万页杰弗里·爱泼斯坦庄园文件,全部是PDF格式。几个月后,司法部又追加了300多万份——没错,还是PDF。对于试图梳理这些文件的调查者来说,这成了技术上的噩梦。

AI视频编辑初创公司Kino联合创始人卢克·伊格尔回忆道:“政府提供的界面根本无法搜索航班信息、日历事件或短信记录。你只能靠运气,希望点开的文档ID正好包含你要找的内容。”这让他萌生了一个想法:为什么不建一个类似Gmail的克隆系统,用更直观的方式查看和搜索所有这些通信记录?

PDF:AI的“不性感失败”

要实现这个想法,首先得从PDF中提取信息——这听起来简单,实际操作却异常困难。数据公司Surge CEO埃德温·陈将PDF解析列为AI的“不性感失败”之一,这些失败限制了AI在现实世界中的实用性。

News Image

去年,陈发现即使是当前最先进的模型,在提取PDF信息时也会出现各种问题:要么直接总结内容而不提取具体信息,要么把脚注和正文搞混,甚至直接“幻觉”出不存在的内容。研究员皮埃尔-卡尔·朗格拉曾半开玩笑地绘制AI发展时间线,将“PDF解析被攻克!”排在通用人工智能(AGI)实现之前。

为什么PDF这么难搞?部分原因在于它最初的设计目标:PDF格式由Adobe在1990年代初开发,旨在精确再现文档的视觉外观,首先是打印,后来扩展到屏幕显示。它本质上是一种“所见即所得”的格式,从未考虑过要被机器读取。

技术极客的“破局”尝试

伊格尔的朋友、“科技小丑”莱利·沃尔茨首先尝试使用谷歌的Gemini模型,但效果有限:只对最清晰的扫描件有效,而且处理数百万份文档的成本高得离谱。

News Image

转机出现在伊格尔联系了他在MIT的前同学阿迪特·亚伯拉罕。巧的是,亚伯拉罕的办公室就在伊格尔楼上,而他正好经营着一家名为Reducto的PDF解析AI公司。

Reducto是众多试图攻克PDF难题的公司之一。它成功从各种“棘手”的PDF中提取了信息:包含神秘解码错误的邮件线程、大量涂黑的通话记录,甚至是手写航班清单的低质量扫描件。

从技术突破到完整生态

数据导出后,伊格尔和沃尔茨开始了“建造狂欢”,几乎构建了一个完整的爱泼斯坦主题应用生态系统:

News Image
  • Jmail:一个令人不安但可搜索的爱泼斯坦收件箱原型
  • Jflights:交互式地球仪,布满可点击的飞行路径,每个点击都能查看底层PDF的航班数据、乘客名单和扫描的邮件邀请
  • Jamazon:搜索爱泼斯坦的亚马逊购买记录
  • Jikipedia:搜索文件中出现的企业和人物——当然,引用的还是更多PDF

“正是在这里,PDF信息提取的魔力对我来说变得真实了,”伊格尔说,“它将彻底改变许多工作的进行方式。”

技术背后的行业启示

PDF解析的挑战揭示了AI发展中的一个有趣现象:我们往往关注AI在“高大上”任务上的表现(如编写复杂软件、解决物理难题),却忽略了那些看似简单但实际困难的基础问题。这就像能解微积分方程却不会系鞋带——技术上令人印象深刻,但实用性受限。

在企业环境中,PDF问题更加普遍。据估计,全球80%的企业数据以非结构化形式存在,其中PDF占了很大比例。从法律文件到财务报告,从研究论文到政府档案,PDF无处不在。如果AI不能有效处理这些格式,其实际应用价值将大打折扣。

News Image

Reducto等公司的努力表明,解决PDF问题需要专门的方法论:结合OCR(光学字符识别)、布局分析、语义理解等多种技术,甚至需要针对特定类型的PDF(如扫描件、表格、多栏文档)开发专门算法。

未来展望:当PDF不再“顽固”

随着技术进步,PDF解析的难题正在逐步被攻克。一些新兴方法开始展现潜力:

  • 多模态学习:同时处理文本、图像和布局信息
  • 领域适应:针对特定类型文档(如法律合同、学术论文)进行优化
  • 增量学习:随着处理更多文档,模型性能持续提升

伊格尔的体验或许预示着一个未来:当AI能够真正“读懂”PDF时,信息获取的方式将发生根本性变化。无论是调查记者梳理数万页文件,还是企业分析历年财报,或是研究人员检索学术文献,效率都将大幅提升。

PDF解析可能永远不会像生成式AI那样登上头条,但它的解决将是AI真正融入日常工作流程的关键一步。毕竟,在数字世界中,如果连最常见的文档格式都处理不好,再“智能”的AI也难免显得有些“人工智障”。

这场针对PDF的技术暗战还在继续,而赢家可能不仅仅是技术公司——每一个需要处理文档的人,都将从中受益。