sshipanoo

2026-07-17 17. 代码 Agent 评测方法的设计反思
2026-07-13 13. InterCode：把交互式编程环境变成强化学习的训练场
2026-06-08 21. Benchmark 全景：SWE-bench、AgentBench、τ-bench 怎么读
2026-05-27 项目 28：拒绝虚假繁荣：构建严谨的模型评测（Evaluation Harness）