工作多模态三场景:单据 OCR 入库、巡检图文报告、白板转待办;每场景要闭环 KPI(准确率、时长、人工复核率)。

场景一:单据拍照入库

仓管/财务拍发票、送货单→OCR+字段映射→ERP 草稿→人工确认过账。KPI:字段准确率、单张耗时、退单率。

与纯文本 AI 不同,这里关键是相机规范(光线、平整)与置信度标黄,不是聊天.prompt。

场景二:现场巡检图文报告

工程师拍设备铭牌+异常点→模型填检查表段落→人工签字上传 EAM。KPI:报告完成时长、漏项率。

安全场景必须离线或私有化;照片含地理与客户信息要注意脱敏。

场景三:会议白板转待办

拍白板→检测框+文字→议题/待办表→同步任务系统。KPI:待办遗漏率、同步成功率。

与音频纪要互补:白板适合头脑风暴阶段的 spatial 信息。

  • 每场景独立 KPI
  • 模糊图拒识
  • 人工确认点固定

为什么不推荐「万能看图助手」

泛聊天无法进 ERP、无法审计、无法培训一线。选场景时要问:拍完之后数据进哪、谁负责、错了怎么回滚。

落地三步

选单一场景→定相机 SOP→200 张真实样本测准确率→双人复核上线→再扩场景。并行三场景资源必散。

采购要点

问端侧/offline、自定义字段 schema、与 API 对接、置信度输出。拒绝只能手机 App 聊天、不能导出 JSON 的玩具。

三个场景的验收指标

场景 A 扫描件入库:字段抽取准确率、人工校对分钟/页、异常单据比例。场景 B 现场拍照报修:图片分类正确率、工单是否自动带上设备编号。场景 C 会议录音:待办提取完整率、责任人是否可编辑。

每个场景单独试点两周,通过后再叠下一个;切忌一个多模态项目同时改三个部门流程。失败时先缩输入质量(分辨率、麦克风、拍摄规范),再考虑换模型。