VoxCPM 本地部署配置
VoxCPM 2 本地部署完整指南,基于官方文档。
环境要求
| 项目 | 要求 |
|---|---|
| Python | 3.10–3.12(3.10–3.11 测试最充分) |
| PyTorch | ≥ 2.5.0 |
| CUDA | ≥ 12.0(GPU 加速,可选) |
| 磁盘空间 | 数 GB |
| GPU 显存 | 约 8–16GB(FP16 推理,2B 模型) |
| 系统内存 | ≥ 16GB |
CPU 推理可用(Apple Silicon MPS 也支持),但速度慢约 1–2 字/秒。
安装步骤
1. 创建 Python 环境
conda create -n voxcpm python=3.10
conda activate voxcpm
2. 安装 PyTorch(CUDA 12.1)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
3. 安装 VoxCPM
pip install voxcpm
4. 验证安装
python -c "from voxcpm import VoxCPM; print('VoxCPM is ready')"
5. Hugging Face 镜像配置(国内访问)
export HF_ENDPOINT=https://hf-mirror.com
首次运行会自动从 Hugging Face 下载模型权重。
快速运行
纯文本转语音
from voxcpm import VoxCPM
model = VoxCPM(device="cuda") # device="cpu" 用于 CPU 推理
model.generate(
text="你好,欢迎使用 VoxCPM 语音合成系统。",
output_path="demo.wav"
)
音色设计(无需参考音频)
model.generate(
text="(音色:温柔的女性,语速较慢,带着轻微的笑意)今天天气真不错呀!",
output_path="voice_design.wav"
)
声音克隆(少量秒参考音频)
model.generate(
text="这是要合成的文本内容。",
prompt_audio="reference.wav",
output_path="cloned.wav"
)
声音克隆 + 风格控制
model.generate(
text="(活泼开朗,语速稍快)项目进展顺利!",
prompt_audio="reference.wav",
output_path="styled_clone.wav"
)
Web Demo(网页界面)
git clone https://github.com/OpenBMB/VoxCPM
cd VoxCPM
pip install -e .
python app.py
首次使用会额外下载 ASR 模型(SenseVoice-Small)。
显存估算
| 精度 | 2B 模型显存 |
|---|---|
| FP32 | ~8 GB |
| FP16 | ~4 GB(仅模型权重) |
| 推理含缓存 | 建议 8–16GB |
硬件配置参考
| 场景 | 推荐配置 |
|---|---|
| 入门测试 | RTX 3060 12GB / RTX 4060 Ti 16GB |
| 流畅使用 | RTX 4090 24GB |
| 追求极速 | RTX A6000 48GB / A100 40GB |
官方资源
- 文档: https://voxcpm.readthedocs.io/zh-cn/latest/
- GitHub: https://github.com/OpenBMB/VoxCPM
- HuggingFace: https://huggingface.co/openbmb/VoxCPM2
- ModelScope: https://modelscope.cn/models/OpenBMB/VoxCPM2
关联
- VoxCPM — 实体页(VoxCPM 项目详情)
- openbmb — 开发组织
- llm-integration — LLM 集成相关