RAG 排障顺序:1 评测集 2 文档新鲜度 3 切片策略 4 权限 5 Embedding/重排;换库是最后一步。

第一步:建 golden 问题集

收集 50 条真实「搜不到/答错」问题,标注期望文档与段落。没有评测集,所有优化都是盲飞。

文档新鲜度与版本

每篇文档 front matter:title、version、effective_date、owner。检索时 filter 最新 effective_date;过期 auto archive。

  • 版本号必填
  • 过期自动降权
  • owner 负责更新

切片策略

FAQ 按 Q 切;手册按 H2 切;表格转 HTML 或 markdown 保留行列;代码按函数切。避免固定 512 token 一刀切。

图表要有 alt 文本或旁路 caption 字段,否则向量里什么都没有。

权限与多租户

检索前 filter ACL:销售看不到 HR 文档。别先检索后过滤——会泄露片段或答「不知道」却暗示存在。

Embedding 与重排

中英混库考虑 multilingual embedding;TopK 后用 cross-encoder 重排。评测集上看 recall@5 与 MRR,不只看 demo 直觉。

运维节奏

每周跑 golden 集;召回降 5% 告警;新文档上线走 review;用户 thumbs down 进 triage 队列。

Golden 集与告警规则示例

Golden 问题按部门标签:销售政策、IT 手册、HR 福利。每条标注期望文档 ID 与段落锚点。每周一自动跑分,召回@5 低于 0.7 触发黄色告警,低于 0.5 冻结新文档入库直到 owner 清理。

用户点踩的回答进入 triage:是切片问题、权限问题还是文档过期?分类统计决定下周工程优先级,而不是盲目调 TopK。把「答错样例」反哺给文档 owner 当改写作业,形成闭环。