數學評測標準追蹤

解決的問題

只看最終正確率會掩蓋推理過程問題,導致模型評測結果難以用於產品決策。

目標用戶

需要建立評測治理體系、沉澱過程指標的教育 AI 團隊。

核心能力

  • Benchmark 分類與版本變更記錄
  • 過程指標:約束一致性、錯誤恢復能力
  • 跨模型趨勢追蹤與對比

當前階段

持續追蹤主流數學 benchmark 更新並輸出標準化觀察。

近期路線

增加合作團隊自定義評測包與自動化報告模板。