返回AI资讯
量子位AI资讯

0数据也能刷爆SOTA?刘壮陈丹琦开源视觉推理框架太炸了

2026/04/11 01:23

就在AI圈还在讨论大模型数据荒的时候,刘壮和陈丹琦团队悄悄放了个大招——他们开源了一个通用视觉推理强化学习框架,直接在零思考数据的情况下刷出了SOTA成绩。这个成果的发布,意味着视觉推理这个赛道要变天了。

先说说这个框架到底做了什么。传统的视觉推理模型训练需要大量的思考数据和标注,成本高得惊人。但这个新框架换了个思路——它不依赖海量思考数据,而是通过强化学习让模型自己在推理过程中学习。简单来说,就是让AI在“看”图片的时候学会“思考”,而不是硬生生灌输答案。这就像教一个孩子解题,不是给他看标准答案,而是引导他自己想明白怎么做。

这个突破对行业的影响远超技术本身。过去几年,视觉推理领域一直被数据瓶颈卡脖子——高质量的思考数据太稀缺,标注成本又太高,很多团队想做但做不起。刘壮陈丹琦这个框架开源后,等于给整个社区发了一张入场券。小团队也能用这个框架做出不错的视觉推理模型,行业门槛瞬间降低。可以预见,接下来会出现一大波基于这个框架的创新应用。

更关键的是,这个成果验证了一个重要判断:强化学习在视觉推理上的Scaling是行得通的。以前很多人觉得视觉推理必须靠堆数据,现在看来,正确的训练范式可能比数据量更重要。这给整个AI研究指了一条新路——也许未来视觉智能的突破,不在于数据有多多,而在于训练方法有多巧妙。

对于普通读者来说,这个新闻意味着AI离我们的日常生活又近了一步。视觉推理能力一旦普及,智能助理、自动化质检、自动驾驶这些应用都会迎来新一轮爆发。作为从业者,现在是最好的入局时机,可以去GitHub上看看这个开源框架,动手跑跑demo,感受一下这项技术的潜力。AI圈从不缺热点,但这种能改变范式的突破,值得我们认真对待。

来源 量子位

阅读原文