PDF 转 Excel:先判文档类型(原生 PDF/扫描/混排),再走 OCR 或表格提取;金额与编号列必须双人抽检;留原始 PDF 哈希便于审计。

第一步:文档分型

原生 PDF(可选中文字):优先用表格提取而非 OCR,准确率更高。扫描件:必须 OCR,且扫描 DPI 建议不低于三百。混排(表格+盖章+手写):分区处理,表格走 OCR,手写单独标记待人工。

一份文档若含多个月份账单,先按页眉拆分批次,避免 AI 把两张表合成一行,这类错误在财务场景代价极高。

OCR 与表格重建

选择支持「表格线检测」的工具;纯段落 OCR 再让模型「猜表格」错误率很高。导出时保留「置信度列」,低于零点八的行标黄,文员优先复核。

合并单元格:要求工具输出「 rowspan/colspan 元数据」,或在 Excel 里用样式还原;若工具只能 dump 平铺数据,文员要花时间重建结构。

  • 金额列:强制文本格式防科学计数
  • 日期列:统一 YYYY-MM-DD
  • 编号列:保留前导零

人工校验:抽多少才够

财务类:百分百核对合计行与样本至少三成明细行。运营类:合计行必核,明细抽两成。校验两人分工:一人读 PDF 一人读 Excel,交叉打勾,避免同一人视觉疲劳。

常见错:小数点移位、千分位混淆、O 与 0、跨页表头丢失。做一张「错例清单」贴在工位,新人按图索骥。

工具组合建议

小团队:Adobe Acrobat 导出 + Excel Power Query 清洗,或开源 OCR + 脚本。中大团队:采购带审计日志的企业 OCR API,禁止个人网盘中转客户 PDF。

别让通用聊天模型直接「读 PDF 填表」处理大批量;它适合解释表格含义,不适合替代 OCR 引擎做像素级识别。

版本与合规

命名规则:原文件名_YYYYMMDD_v1.xlsx;PDF 与 Excel 同目录存档。涉客户报价的 PDF 默认不上公有云 OCR,走私有化或脱敏后处理。

对外提交前,Excel 里加「转换说明」sheet:工具名、操作人、复核人、时间,便于审计追溯。

能省两小时 vs 必人工

能省:规整发票明细录入、库存盘点表、标准报关单栏位。必人工:手写金额、模糊扫描、多表勾稽关系、需盖章生效的法律字段。