【转】一分钟素材、零成本、零配置搭建GPT-SoVITS最强声音克隆

转载自:一分钟素材、零成本、零配置搭建GPT-SoVITS最强声音克隆


GPT-SoVITS,他是由RVC创始人RVC-Boss与AI声音转换技术专家Rcell共同开发的一款跨语言TTS克隆项目,这个项目被称为“最强大中文声音克隆项目”,被众多大佬和知名博主争相推荐,自上线以来,他在github上的Stars数已达到8.6K。

之前做声音克隆,要么通过autodl线上租用GPU,要么就需要本地有GPU环境,gpt-sovits需要的配置相对低一些,基本上6G显存以上就能满足了,但bert-vites2就要4090卡,不然很容易就爆显存了。整体看下来,训练一次的价格在30元-50元人民币的范围,而且需要大量繁琐的配置,出错率极高。

本人也是踩过无数的坑(泪崩)导致训练效果特别糟糕。后来gpt-sovit推出了colab版本,而且很多配置都已经默认设置好了,这样大大就简化了搭建的经济和时间成本,比之前要节省10倍时间。想体验的小伙伴,就跟着我一起操作吧,非常easy

功能:

  1. 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
  3. 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型

项目地址:github.com/KevinWang676

环境准备:

1.一台电脑;

2.一段1分钟音频;

这么简单?哈哈哈,就是这么简单,零成本,零配置。下面跟我一起点点点吧!

继续阅读【转】一分钟素材、零成本、零配置搭建GPT-SoVITS最强声音克隆