解決的問題 只看最終正確率會掩蓋推理過程問題,導致模型評測結果難以用於產品決策。 目標用戶 需要建立評測治理體系、沉澱過程指標的教育 AI 團隊。 核心能力 Benchmark 分類與版本變更記錄 過程指標:約束一致性、錯誤恢復能力 跨模型趨勢追蹤與對比 當前階段 持續追蹤主流數學 benchmark 更新並輸出標準化觀察。 近期路線 增加合作團隊自定義評測包與自動化報告模板。