解决的问题 只看最终正确率会掩盖推理过程问题,导致模型评测结果难以用于产品决策。 目标用户 需要建立评测治理体系、沉淀过程指标的教育 AI 团队。 核心能力 Benchmark 分类与版本变更记录 过程指标:约束一致性、错误恢复能力 跨模型趋势追踪与对比 当前阶段 持续跟踪主流数学 benchmark 更新并输出标准化观察。 近期路线 增加合作团队自定义评测包与自动化报告模板。