Meta十亿烧出第一个多模态大模型： Llama的仇，这次能报了？

这条新闻看似简单，背后却藏着Meta憋了两年的一股气。2023年Llama开源的时候，圈内一片叫好，但实际用起来，业界普遍反馈就是——能用，但不够强。生成效果、推理能力、多模态支持，哪一样拿出来都打不了 GPT-4 和 Claude。这口气，Meta显然咽不下去。

亿元天团这个说法，听起来夸张，但Meta确实在AI人才上砸了血本。余家辉、宋飏、Jason Wei这三个名字，在圈内有技术光环。耗时九个月交出的第一个成品剑指原生多模态，说明Meta不想再跟在别人后面做“改良版”，而是要重新定义路。原生多模态意味着从模型架构层面就把文本、图像、语音等等各种模态融为一体，而不是像现在大多数模型那样——先训练文本，再外挂一个图像生成器。这种架构上的跃迁，才是真正的技术分水岭。

对行业的影响有多大？假如Meta这把真成了，全球大模型格局必然会重新洗牌。OpenAI、Google、Anthropic三足鼎立的局面会出现裂痕。更关键的是，原生多模态如果真能打穿，那意味着AI从“能说会道”进化到“能看会认会说”，这个能力跃迁会把应用场景拓宽十倍都不止。自动驾驶、医疗诊断、教育交互这些领域，都会迎来质变。

读者该怎么看这件事？我的判断是别急着下结论。九个月做出成果，效率不低，但大模型这行最大的教训就是—— Demo 强没用，要看真实场景下的稳定性。Llama 当年也是开场惊艳，后面被各种吐槽。Meta 这次能不能真的“一雪前耻”，关键不在技术发布会，在于三个月后还有没有人用。

趋势上可以确定的是，多模态一定是今年所有大模型厂家的必争之地。Meta 带头冲锋，后面 Google 和 OpenAI 不会坐视。这场仗越打，普通用户其实是受益的——模型会越来越便宜，越来越好用。但对于从业者来说，跟不上节奏的风险也在加大。

阅读原文