Tag: Evaluation

All the articles with the tag "Evaluation".

AI 基准测试没告诉你的那些事：为什么排行榜高分不等于你的场景好用

Published: Jul 2, 2026 at 12:05 AM

新模型发布，SWE-bench 92%，朋友圈刷屏「最强编码模型」。你切过去跑了一圈，结果跟之前差不多，甚至更差了。问题出在哪？本文从 Goodhart 定律出发，拆解基准测试的五个隐蔽问题：分布差距、优化过拟合、Harness 差异，以及为什么你的私有代码和团队约定才是唯一有效的评测标准。
- AI
- Benchmark
- AX
- Agent
- Evaluation