继生成式文本 [ChatGpt] , 生成式图片 [Stablediffusion] 之后生成式语音 [Text To Speech]在开源社区也出现了一匹黑马,就是GPT-Sovits,之所以说他是黑马,让人觉得惊艳,是因为在语音效果克隆上做的足够接近和简单, 只需要少样本的声音数据源,就可以实现高度相似的的仿真效果, 也正式因为足够简单和足够好的效果,GPT-Sovits的社区也异常火爆,而且,不论是在C端应用场景还是企业都具备很高的商业价值,然而,无论是C端的内容生产者,进行本地化部署自己使用,还是B端用户做声音场景的商业化落地,都有很大的挑战,今天我们就来给大家介绍一下,如何通过在函数计算上使用GPT-Sovits来解决这些挑战
应用场景
在进行GPT-Sovits的实践之前,为了能够进一步说明他的价值,我们先来聊聊关于他的应用场景,更确切的来说是生成式语音的应用场景
教育
在教育场景下对声音的诉求尤其重要,对于学生而言,有感情色彩的交流,价值远大于纯文本的交换, 个人教育比如英语培训也是跟语音强相关的
游戏娱乐
游戏娱乐场景就更加明确, 个性化的声音是吸引人的关键因素
新能源
在车载系统,导航里,希望实时对话查询目的地相关的信息是有刚性需求的,比如使用高德导航,正在路上开车的时候,通过实时对话
新媒体
在数字人直播场景下,构建差异性专业的声音是直播效果好坏的关键
农业
比如农业智能化,技术人员在田间工作的时候,打字是一定没有语音交互方便的
机器人
机器人要有耳朵和嘴巴,需要声音的输出
以上的场景都是跟TTS强相关的,或者说TTS作为核心的基础能力被使用,当然构建完整效果还需要更多工程化的实现和其他基础模型,后续我们再展开讲讲。
阿里云函数计算托管实践
说完价值,我们来实操一下,快速在阿里云函数计算上搭建自己的GPT-Sovits 服务,然后进行推理和训练
部署
进入函数计算应用中心,选择 FC-GPT-Sovits 应用模版,一键部署,注意需要开通Nas服务存放基础模型以及训练的模型
https://fcnext.console.aliyun.com/applications/create?template=fc-gpt-sovits
成功之后点击该域名进行访问
使用
快速体验
我们已经准备一些DEMO 声音样例,可以直接进行声音的合成和体验
声音训练
数据预处理 - 准备一个较长的你需要克隆的原始声音
微调文本- 调整原始文本的内容
训练-点点点即可
训练完之后会到 推理tab,刷新和选择自己训练的模型
商业化
商业化相关的部分需要考虑如何做规模以及如何降低成本
成本
关于成本我们列出了跟商业化的模型的对比 https://aliyuque.antfin.com/neil.zxy/mgsk6o/ltt2ta20pgqrfxgl , 经过推理优化,自建的成本和降到商业的10分之一,持续进行优化的还能降低更多成本。
规模
AI产品在当前的时代是极易引发爆点的,一但产品成爆款,随之而来的问题就是系统如何承接这些爆炸性的请求到来,核心的诉求就是系统能够承接足够多的并发请求,保障完整的给客户提供服务,此时基于函数计算的Serverless架构可以发挥很大的优势,除了函数计算自身具备优秀的弹性,可观测能力之外, 我们也可以方便的集成消息, api网关来完成排队,业务限流等复杂的技术操作,保障业务的稳健进行
其他QA
有没有版权问题
版权问题请使用者自行关注,我们只提供基础算力服务,软件本身的协议是MIT
效果怎么调整
效果跟你自己训练的基础模型和demo声音都有关系, 二者需要您自行调整
API
API的使用详细请查看 https://aliyuque.antfin.com/neil.zxy/uatg36/aaoqr94tgzldk8vs?singleDoc#