本章难度:★★★★☆ | 预计阅读时间:10分钟你将学到:LLM评估的四大核心维度、三大评估框架对比、LLM-as-Judge的用法与局限、人工评估设计方法、红队测试流程、以及如何建立完整的评估体系引言:为什么评估是AI产品的核心竞争力你上线了一个RAG聊天机器人,工程师说"效果不错",你问"有多不错",他回答"挺准的"。这不是一个可持续的状态。2026年的AI产品竞争,已经从"能不能做"变成"做得多好"。研究数据显示:90%的RAG流水线在Demo时表现优异,但在生产环境中失败。失败的原因是可以预测的:检索到的答案看似相关但实际答非所问、正确文档被排在后面、多跳问题无法处理……这些问题,只有通过系统的评估才能发现和修复。但PM面临的困境是:AI输出是"软"的——不像传统产品有明确的转化率、留存率,AI的"质量"很难量化。本章的目标:让PM建立AI质量评估的思维框架,知道评估什么、用什么工具评估、如何把评估集成到产品流程中。1. 传统NLP评估指标的局限1.1 BLEU与ROUGE:曾经的主力在LLM之前,NLP评估主要靠BLEU和ROUGE: