注册

新浪财经APP

语音合成论文优选！

语音合成论文优选！

2021年09月15日 14:50 语音之家SpeechHome

语音播报缩小字体放大字体微博微信 0

Perceptually Guided End-to-End Text-to-Speech With MOS Prediction

本文为韩国科学技术高等研究院电气工程学院在2021.08.19更新的文章，主要使用MOSNet增加perceptual loss来优化TTS，从而提高自然度。

1、研究背景

这篇文章还挺有趣，主要在想法上边。首先，对于TTS的合成音频质量的标准主要靠主观的MOS来评分，但这需要组织大量人力来评分，因此自动MOS打分系统被研究，诸如MOSNet等等。本文把MOSNet系统作为loss在训练时期来优化TTS系统，从而提高主观MOS值。

2、详细设计

本篇文章主要是想法好玩，具体如图一所示。先使用具有MOS打分的数据训练MOSnet,然后把MOSnet作为主观loss来训练TTS，不管TTS是哪种类型的声学模型。

3、实验

本文的实验可懂度指标如table 1所示，其中table 2，table 3，fig 2和fig3展示了使用本文方案的效果，从结果可以看出，本文的方案提高了MOS值，其中音素错误PER下降，同时可懂度提高。

4、总结

本文使用MOSNET作为perceptual loss来优化TTS，从而提高自然度。

0条评论|0人参与网友评论

分享到微博

最热评论

最新评论

更多精彩评论>>

头条号入驻

语音之家SpeechHome 助力AI语音开发者的社区

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部