长沙站|武汉站|成都站|南京站|杭州站|攀枝花|苏州站
无锡站|常州站|重庆站|长春站|东莞站|佛山站|广州站
桂林站|贵阳站|惠州站|合肥站|江门站|嘉兴站|金华站
昆明站|柳州站|宁波站|南昌站|南宁站|青岛站|上海站
您当前的位置:首页 > 新闻资讯 > 快讯
面壁智能发布 0.5B 参数语音模型,声音复刻逼真如人类
来源:一起淘      时间:2025-09-19      点击:

9 月 18 日,面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B,在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。

  • 性能表现:RTF ≈ 0.17,支持流式输出 VoxCPM 在 Seed-TTS-EVAL 测试中表现优异,词错误率极低,音色克隆任务中相似度高达真人级别。在 NVIDIA RTX 4090 显卡上实现 RTF ≈ 0.17 的推理速度,满足高质量实时交互需求。
  • 听感体验:情绪、口音、韵律俱佳 模型可根据文本内容自动选择合适的声音风格,生成如天气播报、战前演讲、方言主播等多种语音场景。支持中英双语复刻,极少样本即可「原音重现」,甚至能朗读数学公式与符号。
  • 技术架构:融合语言建模与扩散生成 VoxCPM 采用端到端扩散自回归架构,融合层次化语言建模与局部扩散生成技术。核心模块包括 LocEnc、TSLM、RALM 与 LocDiT,通过 VAE 编解码器实现语音连续特征的高效生成与重构。

目前 VoxCPM 已在 GitHub、Hugging Face 等多个平台开源,开发者可自由下载与体验,还可通过线上 PlayGround 快速试用,音频样例页面也已同步上线。

顶一下
回首页
回首页

一起淘最新邀请码、知买推客,注册邀请码免费发放 一起淘最新邀请码、知买推客,注册邀请码免费发放
来源:本地生活服务      点击:
2025-05-07 17:05:27