解决的问题

只看最终正确率会掩盖推理过程问题，导致模型评测结果难以用于产品决策。

目标用户

需要建立评测治理体系、沉淀过程指标的教育 AI 团队。

持续跟踪主流数学 benchmark 更新并输出标准化观察。

增加合作团队自定义评测包与自动化报告模板。