哈佛MIT团队:基础模型未真正学习到世界模型
【昆仑万维开源 Skywork-R1V3 视觉语言模型】
● Skywork-R1V3 为首个 RL 驱动开源 VLM,创新 RL 后训练框架与关键推理 Token 熵指标;
● 模型在 MMMU(76.0%)、MathVista(77.1%)等多模态推理基准达开源最优,超 Qwen2.5-VL 等大模型;
● 存在幻觉问题及视频 / Agent 能力不足,未来需结合工具增强与统一架构。
【哈佛MIT团队:基础模型未真正学习到世界模型】
● 提出归纳偏差探针,通过外推行为评估模型是否学习底层世界模型;
立即观看