so-vits-svc 是一个开源的歌声转换项目,旨在实现将一个人的歌声转换为另一个人的歌声。该项目基于 SoftVC 内容编码器和 VITS 声码器,能够保留原始音频的音高和语调,实现高质量的歌声转换。
使用 SoftVC 内容编码器提取语音特征,无需转换为文本中间表示
采用 VITS 作为声码器,并使用 NSF HiFiGAN 解决声音断续问题
支持多种语音编码器选项,如 ContentVec、HuBERT、Whisper 等
提供浅层扩散模型,可进一步提升音质
支持静态/动态声音融合
支持响度嵌入
集成了 RVC 项目的特征检索功能
准备数据集:将音频文件放入 dataset_raw 目录
数据预处理:
对音频进行切片
重采样为 44100Hz 单声道
自动分割训练集和验证集
生成 HuBERT 特征和 F0
模型训练:
训练 so-vits-svc 主模型
可选训练扩散模型
推理转换:使用训练好的模型对新的音频进行歌声转换
项目仅供学习交流使用,不得用于商业或非法用途
使用他人音频数据训练需获得授权,由此产生的问题由使用者承担
转换结果需明确标注原始音频来源
请遵守项目的使用条款和声明
so-vits-svc 为歌声转换提供了一个强大的开源框架,让更多人能够探索语音合成技术。项目仍在不断发展,欢迎感兴趣的开发者参与贡献。