VoxCPM

VoxCPM 是 OpenBMB 团队开源的无离散音频分词器（Tokenizer-Free）语音合成系统，通过端到端扩散自回归架构直接生成连续语音表征，绕过传统 TTS 的离散编码步骤，输出高度自然且富有表现力的语音。

关键参数

指标	值
最新版本	VoxCPM2
基座模型	MiniCPM-4
参数量	20亿（2B）
训练数据	200万+ 小时多语种音频
输出采样率	原生 48kHz
支持语言	30种全球语言 + 9种中文方言
中文方言	四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

传统 TTS 系统（如 F5-TTS、MegaTTS）依赖离散分词器（Tokenizer）将音频信号转换为离散符号，这两步过程会引入信息损失，导致合成音质下降和"机械感"。

VoxCPM 彻底放弃离散编码器，直接在连续语音表征空间中建模。核心优势：

输入文本，输出自然语音，支持 30 种语言。

用自然语言描述创建全新音色，无需参考音频。格式：在 text 开头用括号写入音色描述。

基于短参考音频（少量秒数）即可克隆真实音色，保留原说话人的韵律和音质特征。

在 Seed-TTS-eval 基准测试中，VoxCPM2 在自然度和相似度指标上超越了 MegaTTS3、F5-TTS 等主流模型。