Tag: Evaluation
All the articles with the tag "Evaluation".
-
AI 基准测试没告诉你的那些事:为什么排行榜高分不等于你的场景好用
Published: at 12:05 AM新模型发布,SWE-bench 92%,朋友圈刷屏「最强编码模型」。你切过去跑了一圈,结果跟之前差不多,甚至更差了。问题出在哪?本文从 Goodhart 定律出发,拆解基准测试的五个隐蔽问题:分布差距、优化过拟合、Harness 差异,以及为什么你的私有代码和团队约定才是唯一有效的评测标准。