最新动态
AI绘画数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源!
2024-12-03 05:03  浏览:90

最近在搞克隆人,发现一个很好的声音克隆项目,测试了一下,效果真不错,可以直接用,也可以微调后使用,好了废话不多说,直接上干活,哈哈~~

AI绘画数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源!

首先这次直接说项目工具:GPT-SoVITS (安装包下载请看文末扫描获取

项目功能介绍

  1. 零样本文本到语音(TTS: 输入 5 秒的声音样本,即刻体验文本到语音转换。

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。

  3. 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型

项目环境要求

  • Python 3.9、PyTorch 2.0.1 和 CUDA 11

  • Python 3.10.13, PyTorch 2.1.2 和 CUDA 12.3

  • Python 3.9、Pytorch 2.3.0.dev20240122 和 macOS 14.3(Apple 芯片

注意: numba==0.56.4 需要 python<3.11

最让我欣喜的是 windows 有一键包,文末我给大家准备好了,不需要你去爬梯子下载了

注意一点下载并将 ffmpeg.exe 和 ffprobe.exe 放置在 GPT-SoVITS 根目录下。


声音克隆训练过程

这里针对win cuda 介绍,下载我给你的一键包后点击go-webui.bat,直接启动

启动后界面如下

首先从数据开始

如果你想克隆一个人的声音,你可以找到一段这个人的演讲录音,或者视频,当然不同资源需要不同的处理

如果是视频,可以使用 人声分离,如下图,点击这个就会弹出

弹出如下界面,可以对你的视频提取人声

在这里插入图片描述

这个提取部分,作者集成了好几个模型,都可以根据需求选择,简单说一下

模型分为三类: 1、保留人声:不带和声的音频选这个,对主人声保留比HP5更好。内置HP2和HP3两个模型,HP3可能轻微漏伴奏但对主人声保留比HP2稍微好一丁点; 2、仅保留主人声:带和声的音频选这个,对主人声可能有削弱。内置HP5一个模型; 3、去混响、去延迟模型(by FoxJoy: (1)MDX-Net(onnx_dereverb):对于双通道混响是最好的选择,不能去除单通道混响; (234)DeEcho:去除延迟效果。Aggressive比Normal去除得更彻底,DeReverb额外去除混响,可去除单声道混响,但是对高频重的板式混响去不干净。 去混响/去延迟

我是找了一段互联网大佬的演讲声音,这里就不需要人声分离了,哈哈~

回到主界面,直接进行声音切割

在这里插入图片描述

首先输入原音频的文件夹路径(不要有中文,如果刚刚经过了UVR5处理那么就是uvr5_opt这个文件夹。然后建议可以调整的参数有min_length、min_interval和max_sil_kept单位都是ms。min_length根据显存大小调整,显存越小调越小。min_interval根据音频的平均间隔调整,如果音频太密集可以适当调低。max_sil_kept会影响句子的连贯性,不同音频不同调整,不会调的话保持默认。其他参数不建议调整。

接下来是,语音转文字,使用ASR,这个地方 ASR模型,你可以选中文或者多语种,多语种用的Faster Whisper,这个作者没有集成,使用时会自动下载

输入上一步切割的语音,直接点击启动,然后静待一会

作者还给了 语音文本校对标注工具 如果转换的不对,可以人工校对

选择打开后自动弹出界面,很简单这里步赘述了,哈哈~

接下来是数据格式化和微调了

如上图,在TTS卡下,给这次训练一个名字,不要中文,不要中文,不要中文,重要的事情说三遍,训练格式化,需要输入,转换的文本和音频数据

然后进行三项处理

接下来开始微调训练

注意需要根据你的卡的大小,选择 bs和epoch,然后开启SoVITS训练,我们只克隆语音,所以没有训练GPT

训练完后,模型会保存在GPT-SoVITS-betalogs下,有两个模型,G和D


测试效果 训练完当然要测试一下,哈哈~

训练完后,在上图这个地方,点击【刷新模型路径】,模型列表中就会有你的新模型了,然后勾选 【是否开启TTS推理webui】,会自动弹出使用界面

在这里插入图片描述

然后上传一段参考音频,建议是数据集中的音频。最好5秒参考音频很重要会学习语速和语气,请认真选择。参考音频的文本是参考音频说什么就填什么,语种也要对应。

然后上传一段参考音频,建议是数据集中的音频。最好5秒参考音频很重要会学习语速和语气,请认真选择。参考音频的文本是参考音频说什么就填什么,语种也要对应。

训练后效果

对比效果还是有一定提升的,主要是我训练轮数也不高,大家可以自己试试,哈哈,~ 效果出乎意料,中英文都可以幺~

安装包下载请看下方扫描获取哦~

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。   在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。 在这里插入图片描述 在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。 在这里插入图片描述

若有侵权,请联系删除    以上就是本篇文章【AI绘画数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源!】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/quote/9944.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多