纯规则引擎
每个指标设阈值(如 faithfulness < 0.6),触发时给出预设建议文本。
优点
- 零 LLM 调用,零额外成本
- 结果可预测、可审计
- 响应极快
缺点
- 建议固定,无法结合具体样本
- 不能解释"为什么这批数据这个指标低"
这决定了模块的核心机制与可维护性
每个指标设阈值(如 faithfulness < 0.6),触发时给出预设建议文本。
把评测结果(各指标均值 + 低分样本)一起交给 LLM,生成上下文感知的中文分析报告。
规则引擎先识别哪些指标异常、触发哪条优化方向;再把"规则诊断 + 低分样本"一起给 LLM 做二次解读,生成中文建议。