极客前沿

当最先进的AI遇上最“顽固”的PDF

去年11月，美国众议院监督委员会公布了2万页杰弗里·爱泼斯坦庄园文件，全部是PDF格式。几个月后，司法部又追加了300多万份——没错，还是PDF。对于试图梳理这些文件的调查者来说，这成了技术上的噩梦。

AI视频编辑初创公司Kino联合创始人卢克·伊格尔回忆道：“政府提供的界面根本无法搜索航班信息、日历事件或短信记录。你只能靠运气，希望点开的文档ID正好包含你要找的内容。”这让他萌生了一个想法：为什么不建一个类似Gmail的克隆系统，用更直观的方式查看和搜索所有这些通信记录？

要实现这个想法，首先得从PDF中提取信息——这听起来简单，实际操作却异常困难。数据公司Surge CEO埃德温·陈将PDF解析列为AI的“不性感失败”之一，这些失败限制了AI在现实世界中的实用性。

去年，陈发现即使是当前最先进的模型，在提取PDF信息时也会出现各种问题：要么直接总结内容而不提取具体信息，要么把脚注和正文搞混，甚至直接“幻觉”出不存在的内容。研究员皮埃尔-卡尔·朗格拉曾半开玩笑地绘制AI发展时间线，将“PDF解析被攻克！”排在通用人工智能（AGI）实现之前。

为什么PDF这么难搞？部分原因在于它最初的设计目标：PDF格式由Adobe在1990年代初开发，旨在精确再现文档的视觉外观，首先是打印，后来扩展到屏幕显示。它本质上是一种“所见即所得”的格式，从未考虑过要被机器读取。

伊格尔的朋友、“科技小丑”莱利·沃尔茨首先尝试使用谷歌的Gemini模型，但效果有限：只对最清晰的扫描件有效，而且处理数百万份文档的成本高得离谱。

转机出现在伊格尔联系了他在MIT的前同学阿迪特·亚伯拉罕。巧的是，亚伯拉罕的办公室就在伊格尔楼上，而他正好经营着一家名为Reducto的PDF解析AI公司。

Reducto是众多试图攻克PDF难题的公司之一。它成功从各种“棘手”的PDF中提取了信息：包含神秘解码错误的邮件线程、大量涂黑的通话记录，甚至是手写航班清单的低质量扫描件。

数据导出后，伊格尔和沃尔茨开始了“建造狂欢”，几乎构建了一个完整的爱泼斯坦主题应用生态系统：

“正是在这里，PDF信息提取的魔力对我来说变得真实了，”伊格尔说，“它将彻底改变许多工作的进行方式。”

PDF解析的挑战揭示了AI发展中的一个有趣现象：我们往往关注AI在“高大上”任务上的表现（如编写复杂软件、解决物理难题），却忽略了那些看似简单但实际困难的基础问题。这就像能解微积分方程却不会系鞋带——技术上令人印象深刻，但实用性受限。

在企业环境中，PDF问题更加普遍。据估计，全球80%的企业数据以非结构化形式存在，其中PDF占了很大比例。从法律文件到财务报告，从研究论文到政府档案，PDF无处不在。如果AI不能有效处理这些格式，其实际应用价值将大打折扣。

Reducto等公司的努力表明，解决PDF问题需要专门的方法论：结合OCR（光学字符识别）、布局分析、语义理解等多种技术，甚至需要针对特定类型的PDF（如扫描件、表格、多栏文档）开发专门算法。

随着技术进步，PDF解析的难题正在逐步被攻克。一些新兴方法开始展现潜力：

伊格尔的体验或许预示着一个未来：当AI能够真正“读懂”PDF时，信息获取的方式将发生根本性变化。无论是调查记者梳理数万页文件，还是企业分析历年财报，或是研究人员检索学术文献，效率都将大幅提升。

PDF解析可能永远不会像生成式AI那样登上头条，但它的解决将是AI真正融入日常工作流程的关键一步。毕竟，在数字世界中，如果连最常见的文档格式都处理不好，再“智能”的AI也难免显得有些“人工智障”。

这场针对PDF的技术暗战还在继续，而赢家可能不仅仅是技术公司——每一个需要处理文档的人，都将从中受益。