量子位AI资讯
0思考数据也能刷爆SOTA?陈丹琦团队让视觉推理进入「暴力美学」时代
2026/04/11 01:23
当所有人都在卷Chain-of-Thought、Self-CoT、Monte Carlo Tree Search这些「思考」技巧时,刘壮和陈丹琦团队反其道而行之,用一个看似简单却极其暴力的方法刷新了视觉推理的SOTA——不用任何思考数据,照样吊打全场。
这个名为Vision-RL的开源框架核心逻辑非常直白:既然语言模型可以通过大规模预训练涌现出推理能力,那视觉模型为什么不行?他们把视觉问题也做成了「数据规模」的游戏,用海量多样化的视觉推理数据直接训练策略模型,跳过了中间那个让人头疼的思维链设计环节。结果呢?在零样本推理任务上,性能直接登顶。
这背后反映的趋势其实很明显:AI领域正在从「雕花」转向「堆料」。过去我们花大量时间设计prompt、设计thinking模式、设计搜索算法,现在发现与其在模型架构上抠搜,不如直接给够数据让模型自己学。这不是什么新发现,但在视觉推理这个「烧数据」出了名难的领域,陈丹琦团队证明了这条路走得通,意义就不一样了。
对行业的影响有两个层面。短期来看,视觉推理的门槛会被大幅拉低——开源框架+不需要标注思维过程=更多玩家可以入局。长期来看,这场「数据军备竞赛」才刚刚开始,谁能拿到更多高质量视觉推理数据,谁就可能占据领先位置。可以预见,接下来各大厂会疯狂卷数据标注和数据合成,合成数据、仿真环境、数据清洗这些赛道要火。
作为普通从业者或者关注者,我的建议是:别慌着追新框架,先看看自己手头有没有数据可用。这波红利的本质不是算法创新,而是数据基建。模型开源了大家都能用,但你能不能跑出好效果,取决于你有多少高质量数据。有数据资源的团队可以狂欢了,没有数据优势的或许该思考怎么另辟蹊径。
来源 量子位
阅读原文