第一步:文档分型
原生 PDF(可选中文字):优先用表格提取而非 OCR,准确率更高。扫描件:必须 OCR,且扫描 DPI 建议不低于三百。混排(表格+盖章+手写):分区处理,表格走 OCR,手写单独标记待人工。
一份文档若含多个月份账单,先按页眉拆分批次,避免 AI 把两张表合成一行,这类错误在财务场景代价极高。
OCR 与表格重建
选择支持「表格线检测」的工具;纯段落 OCR 再让模型「猜表格」错误率很高。导出时保留「置信度列」,低于零点八的行标黄,文员优先复核。
合并单元格:要求工具输出「 rowspan/colspan 元数据」,或在 Excel 里用样式还原;若工具只能 dump 平铺数据,文员要花时间重建结构。
- 金额列:强制文本格式防科学计数
- 日期列:统一 YYYY-MM-DD
- 编号列:保留前导零
人工校验:抽多少才够
财务类:百分百核对合计行与样本至少三成明细行。运营类:合计行必核,明细抽两成。校验两人分工:一人读 PDF 一人读 Excel,交叉打勾,避免同一人视觉疲劳。
常见错:小数点移位、千分位混淆、O 与 0、跨页表头丢失。做一张「错例清单」贴在工位,新人按图索骥。
工具组合建议
小团队:Adobe Acrobat 导出 + Excel Power Query 清洗,或开源 OCR + 脚本。中大团队:采购带审计日志的企业 OCR API,禁止个人网盘中转客户 PDF。
别让通用聊天模型直接「读 PDF 填表」处理大批量;它适合解释表格含义,不适合替代 OCR 引擎做像素级识别。
版本与合规
命名规则:原文件名_YYYYMMDD_v1.xlsx;PDF 与 Excel 同目录存档。涉客户报价的 PDF 默认不上公有云 OCR,走私有化或脱敏后处理。
对外提交前,Excel 里加「转换说明」sheet:工具名、操作人、复核人、时间,便于审计追溯。
能省两小时 vs 必人工
能省:规整发票明细录入、库存盘点表、标准报关单栏位。必人工:手写金额、模糊扫描、多表勾稽关系、需盖章生效的法律字段。