跨数据中心的创新:Moonshot AI 与清华大学提出 PrfaaS 架构随着大型语言模型(LLM)在推理过程中对计算资源的需求不断增加,传统的服务架构面临瓶颈。Moonshot AI 与清华大学的研究团队最近推出了一种新架构 —— 预填充即服务(PrfaaS),旨在打破大型语言模型服务中对数据中心和计算机资源的限制。 目前,大型语言模型的推理过程通常分为预填充和解码两个阶段。预填充阶段是模型处理输入并生成键值缓存(KVCach…