0思考数据也能刷爆SOTA？陈丹琦团队让视觉推理进入「暴力美学」时代

当所有人都在卷Chain-of-Thought、Self-CoT、Monte Carlo Tree Search这些「思考」技巧时，刘壮和陈丹琦团队反其道而行之，用一个看似简单却极其暴力的方法刷新了视觉推理的SOTA——不用任何思考数据，照样吊打全场。

这个名为Vision-RL的开源框架核心逻辑非常直白：既然语言模型可以通过大规模预训练涌现出推理能力，那视觉模型为什么不行？他们把视觉问题也做成了「数据规模」的游戏，用海量多样化的视觉推理数据直接训练策略模型，跳过了中间那个让人头疼的思维链设计环节。结果呢？在零样本推理任务上，性能直接登顶。

这背后反映的趋势其实很明显：AI领域正在从「雕花」转向「堆料」。过去我们花大量时间设计prompt、设计thinking模式、设计搜索算法，现在发现与其在模型架构上抠搜，不如直接给够数据让模型自己学。这不是什么新发现，但在视觉推理这个「烧数据」出了名难的领域，陈丹琦团队证明了这条路走得通，意义就不一样了。

对行业的影响有两个层面。短期来看，视觉推理的门槛会被大幅拉低——开源框架+不需要标注思维过程=更多玩家可以入局。长期来看，这场「数据军备竞赛」才刚刚开始，谁能拿到更多高质量视觉推理数据，谁就可能占据领先位置。可以预见，接下来各大厂会疯狂卷数据标注和数据合成，合成数据、仿真环境、数据清洗这些赛道要火。

作为普通从业者或者关注者，我的建议是：别慌着追新框架，先看看自己手头有没有数据可用。这波红利的本质不是算法创新，而是数据基建。模型开源了大家都能用，但你能不能跑出好效果，取决于你有多少高质量数据。有数据资源的团队可以狂欢了，没有数据优势的或许该思考怎么另辟蹊径。

阅读原文