返回AI资讯
量子位AI资讯

不靠“思考”也能登顶SOTA?刘壮陈丹琦开源视觉推理框架引热议

2026/04/11 01:23

这条新闻的核心突破在于“0思考数据”这个概念。过去视觉推理领域普遍认为,要提升模型的推理能力,必须依赖大量包含思考过程的训练数据,就像大语言模型需要思维链数据来激发推理能力一样。但刘壮和陈丹琦团队证明了另一条路走得通——通过强化学习方法论,让模型在训练过程中自主学习推理策略,而不需要预先准备昂贵的思考数据。这相当于绕过了数据标注的瓶颈,用更低的成本做出了更好的效果。

对于行业影响,我认为这可能会改变视觉推理赛道的发展轨迹。过去大家都在卷“思考数据”的数量和质量,现在突然冒出个“0思考”也能登顶的方案,那些在数据标注上投入重金的团队可能会重新评估策略。更重要的是,这个框架是开源的,意味着任何人都可以基于它做自己的视觉推理应用,这会加速整个领域的技术普惠。

从长远看,通用视觉智能的路径之争可能就此加速。一方继续死磕多模态大模型的“系统一”思维链能力,另一方则可能转向强化学习驱动的“系统二”推理能力。哪个方向能率先实现真正的通用视觉理解,现在还不好说,但这场竞争会让整个领域更加热闹。

至于普通从业者该如何应对,我的建议是:别急着下结论,也别盲目追新。先把这个框架的论文和代码找来看一看,了解它到底在什么场景下有效、什么场景下可能受限。视觉推理是个大坑,不同任务之间的差异可能比想象的大。保持关注,但别被一个SOTA结果冲昏了头脑。

来源 量子位

阅读原文