运行列表
暂无评估运行。
从「新建评估」触发一次,或运行示例数据生成脚本:python scripts/seed_sample_run.py
选择场景并运行
从 scenarios/ 下选择一个场景配置,点击运行后在下方查看实时状态与日志。
未选择场景
LLM 角色配置 (可选)
为不同任务角色选择已保存的 LLM 配置,留空则使用场景文件中的原始配置。
评估进度
queued请先从「运行列表」选择一次运行。
① 指标均值 OVERVIEW
② 分数分布
暴露长尾失败样本
③ 分组均值
定位薄弱类别
④ 最低分样本(点击展开逐条复核)
⑤ 优化建议 OPTIMIZATION ADVICE
AI 诊断报告
LLM 配置管理
保存常用 LLM 连接参数,在运行评估时按角色选择。
新建 LLM 配置
尚未添加任何 LLM 配置。
点击「新建配置」添加第一个。