运行列表
暂无评估运行。
从「新建评估」触发一次,或运行示例数据生成脚本:python scripts/seed_sample_run.py
选择场景并运行
从 scenarios/ 下选择一个场景配置,点击运行后在下方查看实时状态与日志。
未选择场景
评估进度
queued请先从「运行列表」选择一次运行。
① 指标均值 OVERVIEW
② 分数分布
暴露长尾失败样本
③ 分组均值
定位薄弱类别
④ 最低分样本(点击展开逐条复核)