质检有 ROI，但算力与标注成本高；单点试点。

手机拍就行吗？

要 SOP：光线、对焦、拒识模糊。

和 OCR 项目区别？

OCR 是子能力；多模态还含理解+填表+对接。

要 SOP：光线、对焦、拒识模糊。

结论：别为 multimodal 而 multimodal。高 ROI 三类：发票/面单 OCR 入库、巡检拍照+自动报告、白板/屏幕截图转结构化待办。其余多数仍是实验。

演示里模型「看懂一切」，上线后第一张模糊面单就把 SKU 认错——多模态的价值在特定链路闭环，不在通用「图片聊天」。

工作多模态三场景：单据 OCR 入库、巡检图文报告、白板转待办；每场景要闭环 KPI（准确率、时长、人工复核率）。

仓管/财务拍发票、送货单→OCR+字段映射→ERP 草稿→人工确认过账。KPI：字段准确率、单张耗时、退单率。

与纯文本 AI 不同，这里关键是相机规范（光线、平整）与置信度标黄，不是聊天.prompt。

工程师拍设备铭牌+异常点→模型填检查表段落→人工签字上传 EAM。KPI：报告完成时长、漏项率。

安全场景必须离线或私有化；照片含地理与客户信息要注意脱敏。

拍白板→检测框+文字→议题/待办表→同步任务系统。KPI：待办遗漏率、同步成功率。

与音频纪要互补：白板适合头脑风暴阶段的 spatial 信息。

泛聊天无法进 ERP、无法审计、无法培训一线。选场景时要问：拍完之后数据进哪、谁负责、错了怎么回滚。

选单一场景→定相机 SOP→200 张真实样本测准确率→双人复核上线→再扩场景。并行三场景资源必散。

问端侧/offline、自定义字段 schema、与 API 对接、置信度输出。拒绝只能手机 App 聊天、不能导出 JSON 的玩具。

场景 A 扫描件入库：字段抽取准确率、人工校对分钟/页、异常单据比例。场景 B 现场拍照报修：图片分类正确率、工单是否自动带上设备编号。场景 C 会议录音：待办提取完整率、责任人是否可编辑。

每个场景单独试点两周，通过后再叠下一个；切忌一个多模态项目同时改三个部门流程。失败时先缩输入质量（分辨率、麦克风、拍摄规范），再考虑换模型。