数学评测标准跟踪

解决的问题

只看最终正确率会掩盖推理过程问题,导致模型评测结果难以用于产品决策。

目标用户

需要建立评测治理体系、沉淀过程指标的教育 AI 团队。

核心能力

  • Benchmark 分类与版本变更记录
  • 过程指标:约束一致性、错误恢复能力
  • 跨模型趋势追踪与对比

当前阶段

持续跟踪主流数学 benchmark 更新并输出标准化观察。

近期路线

增加合作团队自定义评测包与自动化报告模板。