项目 28:拒绝虚假繁荣:构建严谨的模型评测(Evaluation Harness)

别被分数骗了:如何测量大模型的真实实力