面壁智能发布 0.5B 参数语音模型，声音复刻逼真如人类--一起淘

您当前的位置：首页 > 新闻资讯 > 快讯

面壁智能发布 0.5B 参数语音模型，声音复刻逼真如人类

来源：一起淘时间：2025-09-19 点击：

9 月 18 日，面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B，在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。

性能表现：RTF ≈ 0.17，支持流式输出 VoxCPM 在 Seed-TTS-EVAL 测试中表现优异，词错误率极低，音色克隆任务中相似度高达真人级别。在 NVIDIA RTX 4090 显卡上实现 RTF ≈ 0.17 的推理速度，满足高质量实时交互需求。
听感体验：情绪、口音、韵律俱佳模型可根据文本内容自动选择合适的声音风格，生成如天气播报、战前演讲、方言主播等多种语音场景。支持中英双语复刻，极少样本即可「原音重现」，甚至能朗读数学公式与符号。
技术架构：融合语言建模与扩散生成 VoxCPM 采用端到端扩散自回归架构，融合层次化语言建模与局部扩散生成技术。核心模块包括 LocEnc、TSLM、RALM 与 LocDiT，通过 VAE 编解码器实现语音连续特征的高效生成与重构。

目前 VoxCPM 已在 GitHub、Hugging Face 等多个平台开源，开发者可自由下载与体验，还可通过线上 PlayGround 快速试用，音频样例页面也已同步上线。

一起淘最新邀请码、知买推客，注册邀请码免费发放
来源：本地生活服务点击：
2025-05-07 17:05:27

最新邀请码
x3mkqoA0I6cqy9jJy55
zqBGX3AgSqcpZ9AjZzV
GAkeaR5yTWcXbV6ObaR
8ABog1b0TAcvYkm9YoW
kaBWG06jcmcqyP9Xy1x