微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

微软近日开源了名为 VibeVoice 的前沿语音 AI 模型家族，涵盖自动语音识别（ASR）和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性，迅速在开发者社区引发关注，目前已在 GitHub 收获约27K Star。作为开源研究框架，VibeVoice 采用 MIT 许可协议，支持本地部署，无需云端订…