美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

4 月 3 日，美团技术团队正式发布原生多模态大模型 LongCat Next 。该模型突破了传统“语言基座+插件”的拼凑架构，通过将图像、语音与文本统一转化为同源的离散 Token，让 AI 第一次能够像处理文字一样，原生地“看”与“听”物理世界。技术核心：DiNA 架构实现“模态内化” 为了打破模态间的隔阂，美团构建了 DiNA（离散原生自回归）架构…