ChatGPT 能直接转吗？

可辅助理解结构，大批量像素级转换仍需专业 OCR，且注意保密。

扫描模糊怎么办？

重扫优先；或分段 OCR+人工，不要强行全自动。

留 PDF 哈希、复核记录与错例复盘，比承诺准确率更有说服力。

结论：文员真实流程：扫描→OCR→表格结构化→抽样校验→导出 Excel 并留痕。AI/OCR 适合规整表格，合并单元格、手写批注与盖章遮挡必须人工。

老板以为「PDF 转 Excel 一键搞定」，实际文员最花时间的是核对金额小数点与跨页表格断行。工具广告很少提这部分，导致项目预期失真。

PDF 转 Excel：先判文档类型（原生 PDF/扫描/混排），再走 OCR 或表格提取；金额与编号列必须双人抽检；留原始 PDF 哈希便于审计。

原生 PDF（可选中文字）：优先用表格提取而非 OCR，准确率更高。扫描件：必须 OCR，且扫描 DPI 建议不低于三百。混排（表格+盖章+手写）：分区处理，表格走 OCR，手写单独标记待人工。

一份文档若含多个月份账单，先按页眉拆分批次，避免 AI 把两张表合成一行，这类错误在财务场景代价极高。

选择支持「表格线检测」的工具；纯段落 OCR 再让模型「猜表格」错误率很高。导出时保留「置信度列」，低于零点八的行标黄，文员优先复核。

合并单元格：要求工具输出「 rowspan/colspan 元数据」，或在 Excel 里用样式还原；若工具只能 dump 平铺数据，文员要花时间重建结构。

财务类：百分百核对合计行与样本至少三成明细行。运营类：合计行必核，明细抽两成。校验两人分工：一人读 PDF 一人读 Excel，交叉打勾，避免同一人视觉疲劳。

常见错：小数点移位、千分位混淆、O 与 0、跨页表头丢失。做一张「错例清单」贴在工位，新人按图索骥。

小团队：Adobe Acrobat 导出 + Excel Power Query 清洗，或开源 OCR + 脚本。中大团队：采购带审计日志的企业 OCR API，禁止个人网盘中转客户 PDF。

别让通用聊天模型直接「读 PDF 填表」处理大批量；它适合解释表格含义，不适合替代 OCR 引擎做像素级识别。

命名规则：原文件名_YYYYMMDD_v1.xlsx；PDF 与 Excel 同目录存档。涉客户报价的 PDF 默认不上公有云 OCR，走私有化或脱敏后处理。

对外提交前，Excel 里加「转换说明」sheet：工具名、操作人、复核人、时间，便于审计追溯。

能省：规整发票明细录入、库存盘点表、标准报关单栏位。必人工：手写金额、模糊扫描、多表勾稽关系、需盖章生效的法律字段。