场景一:单据拍照入库
仓管/财务拍发票、送货单→OCR+字段映射→ERP 草稿→人工确认过账。KPI:字段准确率、单张耗时、退单率。
与纯文本 AI 不同,这里关键是相机规范(光线、平整)与置信度标黄,不是聊天.prompt。
场景二:现场巡检图文报告
工程师拍设备铭牌+异常点→模型填检查表段落→人工签字上传 EAM。KPI:报告完成时长、漏项率。
安全场景必须离线或私有化;照片含地理与客户信息要注意脱敏。
场景三:会议白板转待办
拍白板→检测框+文字→议题/待办表→同步任务系统。KPI:待办遗漏率、同步成功率。
与音频纪要互补:白板适合头脑风暴阶段的 spatial 信息。
- 每场景独立 KPI
- 模糊图拒识
- 人工确认点固定
为什么不推荐「万能看图助手」
泛聊天无法进 ERP、无法审计、无法培训一线。选场景时要问:拍完之后数据进哪、谁负责、错了怎么回滚。
落地三步
选单一场景→定相机 SOP→200 张真实样本测准确率→双人复核上线→再扩场景。并行三场景资源必散。
采购要点
问端侧/offline、自定义字段 schema、与 API 对接、置信度输出。拒绝只能手机 App 聊天、不能导出 JSON 的玩具。
三个场景的验收指标
场景 A 扫描件入库:字段抽取准确率、人工校对分钟/页、异常单据比例。场景 B 现场拍照报修:图片分类正确率、工单是否自动带上设备编号。场景 C 会议录音:待办提取完整率、责任人是否可编辑。
每个场景单独试点两周,通过后再叠下一个;切忌一个多模态项目同时改三个部门流程。失败时先缩输入质量(分辨率、麦克风、拍摄规范),再考虑换模型。