基础大模型研究思路(3)大模型评测不可信问题
# 大模型评测不可信问题总结
1. **核心问题:榜单易被“污染”,失去参考价值**
公开评测榜单的数据集(含测试集)可被获取,部分开发者会将这些测试集直接纳入模型训练数据中(即“数据泄露”)。这导致模型在该榜单上表现极佳,但在实际随机提问等真实场景中效果大打折扣,使得榜单结果失真,可被轻易“作弊”。
2. **现实影响:公开榜单失效,模型选择困难**
由于开发者为提升排名普遍采用上述作弊手段,市面上多数公开大模型评测榜单已基本失效。无论是企业还是用户,都难以通过这些榜单判断不同大模型的真实能力
立即观看