美团这次玩大了!把图像语音全变成Token,AI圈又要变天?
美团这次在AI领域的动作,乍一看有点令人意外,但仔细想想又在情理之中。作为国内本地生活服务的绝对霸主,美团拥有海量的图像、语音、文本数据,这些多模态资产如果不能高效利用起来,实在是太可惜了。
所谓的“原生多模态”,本质上是要打破过去那种“图像归图像、语音归语音”的割裂训练模式。过去的多模态模型,往往是先分别训练视觉编码器和语音编码器,然后再想办法把它们“嫁接”到语言模型上。这种方式就像给人做了器官移植,多多少少会有排异反应。美团的做法更彻底——把所有模态都统一成Token,直接在一个模型里进行预测。这让我想到当年Transformer统一NLP各子领域的盛景,现在看来是要在多模态领域复制一遍。
对行业的影响,我觉得有两点值得关注。首先,美团的入局意味着多模态大模型的竞争从互联网大厂之间的PK,扩展到了生活服务领域的垂直玩家。过去我们总觉得美团是一家“接地气”的公司,AI技术储备可能不如BAT,但这次展示的技术路径说明,美团在AI上的投入远比外界想象的要深。其次,如果美团真的把图像和语音都统一成Token,那意味着它可以在外卖推荐、客服对话、场景识别等多个业务场景实现更自然的AI交互。想象一下,以后你点外卖时,AI不仅能听懂你的语音指令,还能“看”一眼你发过去的菜品图片,直接给出推荐——这才是真正的多模态交互。
不过,挑战也显而易见。统一Token训练的背后是巨大的算力消耗和训练难度,如何保证不同模态之间的语义对齐是个技术难题。另外,美团的技术开源程度、能否吸引更多开发者参与生态构建,也是决定其能否在这一领域站稳脚跟的关键因素。
对于普通读者来说,你们需要关注的是:这场变革可能很快就会影响到你们日常使用的美团App功能升级。更重要的是,它预示着AI技术正在从“能说会道”向“能看会听”全面进化,未来半年到一年内,多模态AI应用的爆发几乎是确定的事。建议大家保持好奇,适度体验,但也别被那些过于激进的宣传冲昏了头脑——技术落地需要时间,真实体验才是检验一切的最终标准。
来源 量子位
阅读原文