Metrics on Yuan的博客

Metrics on Yuan的博客https://liyuan.org/zh/tags/metrics/Recent content in Metrics on Yuan的博客Hugozh-cnTue, 05 May 2026 00:00:00 +0000给 RAG Agent 挑评估指标 —— 来自一线的笔记https://liyuan.org/zh/posts/ai/rag-eval-metrics-selection/Tue, 05 May 2026 00:00:00 +0000https://liyuan.org/zh/posts/ai/rag-eval-metrics-selection/这篇文章介绍了一套面向 RAG（检索增强生成）Agent 的务实分层评估思路，背景是在复杂的金融文档分析场景（FinanceBench）上做评测。作者的核心观点是：有效的评估不是堆指标的数量，而是在开发周期的不同阶段选出能给出清晰、可行动信号的指标。