优化建议怎么生成？

这决定了模块的核心机制与可维护性

A

纯规则引擎

每个指标设阈值（如 faithfulness < 0.6），触发时给出预设建议文本。

优点

零 LLM 调用，零额外成本
结果可预测、可审计
响应极快

缺点

建议固定，无法结合具体样本
不能解释"为什么这批数据这个指标低"

B

LLM 分析（全自动）

把评测结果（各指标均值 + 低分样本）一起交给 LLM，生成上下文感知的中文分析报告。

优点

能结合具体低分样本给出针对性建议
可用中文解释西门子场景下的问题
建议质量高、内容丰富

缺点

每次评测多 1 次 LLM 调用
依赖 judge_model 的质量

C

规则定位 + LLM 解读（推荐）

规则引擎先识别哪些指标异常、触发哪条优化方向；再把"规则诊断 + 低分样本"一起给 LLM 做二次解读，生成中文建议。

优点

规则保证诊断稳定，不依赖 LLM 自由发挥
LLM 在有结构的输入下输出更准确
两层可独立测试

缺点

实现略复杂（两个子模块）