没评测集和 KB 治理，换谁都不行。

PDF 表格怎么办？

结构化抽取或 HTML 存旁路，别硬切文本。

文档 owner+IT 共责；weekly golden 跑分。

公司知识库 RAG 为什么搜不到答案？排障路线图

没评测集和 KB 治理，换谁都不行。

结论：RAG 搜不到答案，常见五因：切片把表格切碎、Embedding 模型与语言不匹配、员工无权限看源文档、KB 过期、没有 golden 评测集。按路线图排，别先换 Pinecone。

上线 RAG 问答，销售问「2024 报价政策」总答 2022 PDF——切片没版本标记，检索到旧文件置信度还高。换模型救不了脏库与烂切片。

RAG 排障顺序：1 评测集 2 文档新鲜度 3 切片策略 4 权限 5 Embedding/重排；换库是最后一步。

收集 50 条真实「搜不到/答错」问题，标注期望文档与段落。没有评测集，所有优化都是盲飞。

每篇文档 front matter：title、version、effective_date、owner。检索时 filter 最新 effective_date；过期 auto archive。

FAQ 按 Q 切；手册按 H2 切；表格转 HTML 或 markdown 保留行列；代码按函数切。避免固定 512 token 一刀切。

图表要有 alt 文本或旁路 caption 字段，否则向量里什么都没有。

检索前 filter ACL：销售看不到 HR 文档。别先检索后过滤——会泄露片段或答「不知道」却暗示存在。

中英混库考虑 multilingual embedding；TopK 后用 cross-encoder 重排。评测集上看 recall@5 与 MRR，不只看 demo 直觉。

每周跑 golden 集；召回降 5% 告警；新文档上线走 review；用户 thumbs down 进 triage 队列。

Golden 问题按部门标签：销售政策、IT 手册、HR 福利。每条标注期望文档 ID 与段落锚点。每周一自动跑分，召回@5 低于 0.7 触发黄色告警，低于 0.5 冻结新文档入库直到 owner 清理。

用户点踩的回答进入 triage：是切片问题、权限问题还是文档过期？分类统计决定下周工程优先级，而不是盲目调 TopK。把「答错样例」反哺给文档 owner 当改写作业，形成闭环。