解決的問題

只看最終正確率會掩蓋推理過程問題，導致模型評測結果難以用於產品決策。

目標用戶

需要建立評測治理體系、沉澱過程指標的教育 AI 團隊。

持續追蹤主流數學 benchmark 更新並輸出標準化觀察。

增加合作團隊自定義評測包與自動化報告模板。