文章来源于互联网:首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
-
ArXiv: https://arxiv.org/pdf/2408.00284 -
Homepage: https://giantailab.github.io/bailingtts_tech_report/index.html -
论文标题:Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation
汴水东流无限春,隋家宫阙已成尘。行人莫上长堤望,风起杨花愁杀人。

我嘞爱好也可多了,好听豫剧,那腔调儿,听着得劲儿嘞很。没事嘞时候我也好出去溜达溜达,逛逛俺河南嘞大好风光。我还好捣鼓点儿吃嘞,像那烩面呀、胡辣汤呀,你别说,我自己做嘞也可像回事儿。

生成1:这个问题,嗯嘶,从另一个角度看,是不是对我们来说也是一件好事?
Prompt 2:少年-男
生成2:喽,明天又是周末啦,一起去看个电影吧。
Prompt 3:老年-女 
Prompt 4:幼童-女
生成4:哦,你说的是这个啊,这是我去海边的时候捡到的。 
实验结果
Bailing-TTS 在普通话、多种方言的鲁棒性、生成质量、自然度上已达到与真人较为接近的水平。
表 1 Bailing-TTS 在中文普通话、方言上的测试结果
在实际的应用场景测评中,Baling-TTS 均取得了不错的效果。
表 2 Bailing-TTS 在中文普通话、方言上的说话人微调和零样本克隆的测试结果
团队介绍
巨人 AI 实验室成立于 2022 年,是隶属于巨人网络的人工智能技术应用与研究机构。致力于面向 AIGC 内容(图像 / 文本 / 音视频 / 3D 模型等)生成领域,实现内容生产创作全面智能化,推动游戏玩法创新。目前,实验室已在巨人内部构建起全链路 AI 工业化生产管线,同时完成游戏行业内首个垂类大模型(GiantGPT)备案,率先投入商业化应用。
文章来源于互联网:首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜




