什么是tts呢?它是一种能把文字信息转换成我们能听到的语音信号的技术,就像给文字装上了嘴巴,让它可以用不同的音色说话。它在我们生活中的应用可广泛啦,像汽车导航、机器人,还有很多语音软件里都有它的身影。
一、技术原理
它分为前端的语言分析部分和后端的声学系统部分。前端要对输入的文本进行很多处理。首先要判断语种,像中文、英文等,然后把文字按照语法规则切成句子。
如果有阿拉伯数字或字母,还得转化成文字,不过这个转化是有规则的哦。比如说手机号码的数字就不是完全按照数字的完整读法来转化的。
接着要把文字转成音素,这就像我们汉语里把字转成拼音一样,但是要注意多音字的情况,得通过分析判断正确的读音和音调。
最后还要预测句读韵律,就像我们人说话一样,要有停顿、重音和轻音,这样合成出来的声音才会有高低曲折、抑扬顿挫的感觉。
后端的声学系统部分也有几种不同的技术。像波形拼接语音合成,它是通过录制大量的音频,然后用这些音频拼接成对应的文本音频。
优点是录音量够大的话效果好,但缺点是需要的录音量太大,而且字间过渡不自然。参数语音合成技术则是通过数学方法对录音进行建模,它的优点是录音量小,字间过渡平滑,但是音质没有波形拼接的好,还有机械感和杂音。
端到端语音合成技术是通过神经网络学习,直接输入文本就能输出音频,它对语言学知识要求低,合成的音频很像人说话,不过性能会降低,而且不能人为调优。
二、技术边界
虽然TTS技术已经很厉害了,但它还是有一些不足的地方。
在拟人化方面,虽然已经很接近真人了,但专业人员还是能听出来是合成的,因为合成音的韵律没有真人那么自然,不会随着文本内容有很大的起伏变化,单个字词可能还有机械感。
在情绪化方面也有欠缺,比如读小说的时候,小说里有很多不同的情绪场景,但合成的音频感情和情绪比较平稳,没有很大的起伏。
不过,它在我们生活中的应用还是给我们带来了很多便利。比如在汽车导航里给我们提示路线,让机器人能和我们聊天,在语音软件里给我们读小说、读新闻。