问题定义
常见误区
RAG 效果不好,优先换向量库、调切片、换 embedding。
我的判断
更常见的根因是问题边界没定义,知识源没治理,失败样本没有被稳定记录。
很多 RAG 系统把精力放在向量库、切片参数和召回算法上,但问题定义不清楚时,这些优化很容易变成局部热闹。
真正要先回答的是:用户会问哪些问题,哪些问题应该拒答,哪些答案必须带出处,哪些知识永远不能交给生成模型自由发挥。边界没定义,召回率越高也可能只是把错误更快送到用户面前。
评价集
更重要的是先定义知识边界、问题类型和失败样本。没有这些材料,就很难判断一次改动到底改善了系统,还是只改善了几个看起来漂亮的例子。
一个小而稳定的评价集比一组临时问题更有价值。它应该覆盖高频问题、边界问题、过期知识、相似实体和拒答场景,让每次切片、重排、提示词改动都能被同一把尺子衡量。
反馈闭环
好的 RAG 系统会把检索、生成、引用、评价和人工反馈连接起来,让每次失败都能回到知识库和评价集里。
反馈闭环的关键不是收集更多点赞点踩,而是把失败变成可处理的工单:是没有召回、召回错误、引用缺失、答案编造,还是知识源本身需要更新。分类清楚,系统才有持续改进的方向。