美团发布原生多模态 LongCat-Next:视觉语音实现底层统一4 月 3 日,美团技术团队正式发布原生多模态大模型 LongCat Next 。该模型突破了传统“语言基座+插件”的拼凑架构,通过将图像、语音与文本统一转化为同源的离散 Token,让 AI 第一次能够像处理文字一样,原生地“看”与“听”物理世界。 技术核心:DiNA 架构实现“模态内化” 为了打破模态间的隔阂,美团构建了 DiNA(离散原生自回归)架构…