第一步:建 golden 问题集
收集 50 条真实「搜不到/答错」问题,标注期望文档与段落。没有评测集,所有优化都是盲飞。
文档新鲜度与版本
每篇文档 front matter:title、version、effective_date、owner。检索时 filter 最新 effective_date;过期 auto archive。
- 版本号必填
- 过期自动降权
- owner 负责更新
切片策略
FAQ 按 Q 切;手册按 H2 切;表格转 HTML 或 markdown 保留行列;代码按函数切。避免固定 512 token 一刀切。
图表要有 alt 文本或旁路 caption 字段,否则向量里什么都没有。
权限与多租户
检索前 filter ACL:销售看不到 HR 文档。别先检索后过滤——会泄露片段或答「不知道」却暗示存在。
Embedding 与重排
中英混库考虑 multilingual embedding;TopK 后用 cross-encoder 重排。评测集上看 recall@5 与 MRR,不只看 demo 直觉。
运维节奏
每周跑 golden 集;召回降 5% 告警;新文档上线走 review;用户 thumbs down 进 triage 队列。
Golden 集与告警规则示例
Golden 问题按部门标签:销售政策、IT 手册、HR 福利。每条标注期望文档 ID 与段落锚点。每周一自动跑分,召回@5 低于 0.7 触发黄色告警,低于 0.5 冻结新文档入库直到 owner 清理。
用户点踩的回答进入 triage:是切片问题、权限问题还是文档过期?分类统计决定下周工程优先级,而不是盲目调 TopK。把「答错样例」反哺给文档 owner 当改写作业,形成闭环。