优化建议怎么生成?

这决定了模块的核心机制与可维护性

A

纯规则引擎

每个指标设阈值(如 faithfulness < 0.6),触发时给出预设建议文本。

优点

  • 零 LLM 调用,零额外成本
  • 结果可预测、可审计
  • 响应极快

缺点

  • 建议固定,无法结合具体样本
  • 不能解释"为什么这批数据这个指标低"
B

LLM 分析(全自动)

把评测结果(各指标均值 + 低分样本)一起交给 LLM,生成上下文感知的中文分析报告。

优点

  • 能结合具体低分样本给出针对性建议
  • 可用中文解释西门子场景下的问题
  • 建议质量高、内容丰富

缺点

  • 每次评测多 1 次 LLM 调用
  • 依赖 judge_model 的质量
C

规则定位 + LLM 解读(推荐)

规则引擎先识别哪些指标异常、触发哪条优化方向;再把"规则诊断 + 低分样本"一起给 LLM 做二次解读,生成中文建议。

优点

  • 规则保证诊断稳定,不依赖 LLM 自由发挥
  • LLM 在有结构的输入下输出更准确
  • 两层可独立测试

缺点

  • 实现略复杂(两个子模块)