先说结论
知识库效果评估不能只看“像不像正确答案”,而要同时看 命中率、拒答率、召回质量、答案准确率、人工复核结果、场景分层表现和持续迭代闭环。真正可上线的 RAG,不是偶尔答对,而是整体稳定、边界清楚、问题可追踪。
很多团队做知识库问答时,最大的误区是“只要感觉回答还行就算上线了”。但企业知识库不是演示系统,真正的问题是:命中是否稳定、不会答时会不会乱答、召回是否靠谱、人工能不能持续复核、版本迭代有没有依据。没有评估体系的知识库,就算今天看着能用,明天业务一变、文档一更新、问题一扩展,效果就会迅速漂移。
知识库效果评估不能只看“像不像正确答案”,而要同时看 命中率、拒答率、召回质量、答案准确率、人工复核结果、场景分层表现和持续迭代闭环。真正可上线的 RAG,不是偶尔答对,而是整体稳定、边界清楚、问题可追踪。
因为演示阶段通常只测少量标准问题,而真实线上问题更复杂:问法会变、上下文会乱、文档会更新、用户会跨主题追问。如果没有评估框架,团队会一直停留在“感觉还行”,直到业务方开始抱怨“总答非所问”。
命中率不是模型说得流不流畅,而是它有没有真正命中该问题对应的知识。
很多团队只怕“答不上来”,其实更该怕“答不上来还硬答”。合理拒答,本身就是高质量表现的一部分。
很多人把问题都归到“模型不行”,但知识库答错很大一部分原因其实在召回:切分不合理、向量召回不准、排序错误、索引污染、权限隔离失效。生成层只是把前面喂进去的东西说出来而已。
企业知识库最终服务的是业务,不是模型排行榜。人工复核能帮你识别“技术上像对,业务上其实不能用”的答案。尤其涉及客服、流程、制度、报价、交付规则时,人工审核比自动打分更重要。