
TTS也要真人感!首个字级内容、毫秒级停顿控制的语音合成系统
新智元报道【新智元导读】语音合成这两年发展迅速:把一段话顺顺当当地念完,已经不算难事;难的是该慢的时候慢,该顿的时候顿,该强调的时候真能把重点托出来。语音合成这些年最明显的进展,是越来越会模拟真人输出语音。自然度更高了,声音更像真人了,零样本克隆也越来越成熟了。可一旦要求模型别再只是平着往下读,而是对一句话内部的节奏做有选择的安排,问题就暴露出来了。很多系统能做到整体变快、整体变慢,也能给整段话套
科技3 阅读
共找到 1 篇相关文章

新智元报道【新智元导读】语音合成这两年发展迅速:把一段话顺顺当当地念完,已经不算难事;难的是该慢的时候慢,该顿的时候顿,该强调的时候真能把重点托出来。语音合成这些年最明显的进展,是越来越会模拟真人输出语音。自然度更高了,声音更像真人了,零样本克隆也越来越成熟了。可一旦要求模型别再只是平着往下读,而是对一句话内部的节奏做有选择的安排,问题就暴露出来了。很多系统能做到整体变快、整体变慢,也能给整段话套