人工智能实战:RAG 召回评测平台怎么搭?从前期发现答非所问到 Recall@K、MRR 与 NDCG 指标落地一、问题场景:RAG 答错了,但不知道是检索错还是生成错RAG 系统答错时,很多人第一反应是改 Prompt。但真实情况经常是:模型没有看到正确资料。如果检索阶段没召回正确 chunk,生成阶段再强也没用。我见过一个系统,用户问:销售客户拜访二线城市住宿费多少?模型回答:350元排查发现:retrieved_docs 里根本没有 sales_policy这不是生成问题,而是召回问题。本文解决的问题是:如何搭建 RAG 召回评测平台,使用 Recall@K、MRR、NDCG 等指标量化检索质量,避免盲目调 Prompt。二、前期如何发现需要召回评测?