美团这次玩大了！把图像语音全变成Token，AI圈又要变天？

美团这次在AI领域的动作，乍一看有点令人意外，但仔细想想又在情理之中。作为国内本地生活服务的绝对霸主，美团拥有海量的图像、语音、文本数据，这些多模态资产如果不能高效利用起来，实在是太可惜了。

所谓的“原生多模态”，本质上是要打破过去那种“图像归图像、语音归语音”的割裂训练模式。过去的多模态模型，往往是先分别训练视觉编码器和语音编码器，然后再想办法把它们“嫁接”到语言模型上。这种方式就像给人做了器官移植，多多少少会有排异反应。美团的做法更彻底——把所有模态都统一成Token，直接在一个模型里进行预测。这让我想到当年Transformer统一NLP各子领域的盛景，现在看来是要在多模态领域复制一遍。

对行业的影响，我觉得有两点值得关注。首先，美团的入局意味着多模态大模型的竞争从互联网大厂之间的PK，扩展到了生活服务领域的垂直玩家。过去我们总觉得美团是一家“接地气”的公司，AI技术储备可能不如BAT，但这次展示的技术路径说明，美团在AI上的投入远比外界想象的要深。其次，如果美团真的把图像和语音都统一成Token，那意味着它可以在外卖推荐、客服对话、场景识别等多个业务场景实现更自然的AI交互。想象一下，以后你点外卖时，AI不仅能听懂你的语音指令，还能“看”一眼你发过去的菜品图片，直接给出推荐——这才是真正的多模态交互。

不过，挑战也显而易见。统一Token训练的背后是巨大的算力消耗和训练难度，如何保证不同模态之间的语义对齐是个技术难题。另外，美团的技术开源程度、能否吸引更多开发者参与生态构建，也是决定其能否在这一领域站稳脚跟的关键因素。

对于普通读者来说，你们需要关注的是：这场变革可能很快就会影响到你们日常使用的美团App功能升级。更重要的是，它预示着AI技术正在从“能说会道”向“能看会听”全面进化，未来半年到一年内，多模态AI应用的爆发几乎是确定的事。建议大家保持好奇，适度体验，但也别被那些过于激进的宣传冲昏了头脑——技术落地需要时间，真实体验才是检验一切的最终标准。

阅读原文