RAG 的难点常常不在检索，而在问题定义

问题定义

常见误区

RAG 效果不好，优先换向量库、调切片、换 embedding。

我的判断

更常见的根因是问题边界没定义，知识源没治理，失败样本没有被稳定记录。

很多 RAG 系统把精力放在向量库、切片参数和召回算法上，但问题定义不清楚时，这些优化很容易变成局部热闹。

真正要先回答的是：用户会问哪些问题，哪些问题应该拒答，哪些答案必须带出处，哪些知识永远不能交给生成模型自由发挥。边界没定义，召回率越高也可能只是把错误更快送到用户面前。

更重要的是先定义知识边界、问题类型和失败样本。没有这些材料，就很难判断一次改动到底改善了系统，还是只改善了几个看起来漂亮的例子。

一个小而稳定的评价集比一组临时问题更有价值。它应该覆盖高频问题、边界问题、过期知识、相似实体和拒答场景，让每次切片、重排、提示词改动都能被同一把尺子衡量。

好的 RAG 系统会把检索、生成、引用、评价和人工反馈连接起来，让每次失败都能回到知识库和评价集里。

反馈闭环的关键不是收集更多点赞点踩，而是把失败变成可处理的工单：是没有召回、召回错误、引用缺失、答案编造，还是知识源本身需要更新。分类清楚，系统才有持续改进的方向。