2020-03-30 为大家讲解一项来自UCBerkeley的新工作:SqueezeAIfamily里近期的一员——用作移动末端语音合成的流模型SqueezeWave。作者用了一些很非常简单的方法,设计了一个十分精简得流模型。
和此前Nvidia的WaveGlow比起,相近的语音效果下,他们的模型所需算力比原先模型小214倍,在树莓为首上都能做动态分解的速度。自动语音合成对于众多智能应用于十分最重要,其中声学特征切换为音频输入的声码器在语音合成过程中具备十分最重要的起到。虽然WaveGlow可以构建分段简化的语音合成,但其可观的计算出来量使得本地和边缘设备无法忍受,基于云计算的语音合成使得网络延时和用户隐私问题无法有效地解决问题。
为了解决问题语音合成中计算出来效率的问题,来自加州大学伯克利分校的研究人员明确提出了一种超强轻量级的声码器模型SqueezeWave,通过对WaveGlow的结构和计算方法展开优化大幅度提高了模型计算出来效率,相比于WaveGlow增大了61-214倍的计算出来量,在众多边缘设备上——甚至是树莓为首上——都能有效地部署构建高效的动态语音合成。TTS从云端向边缘从车载地图应用于到语音助手,众多设备都开始使用了非常丰富的语音交互技术来处置各种任务。但想获得高质量的文本到语音切换,必须简单的机器学习模型和可观的云计算资源承托。
但随着硬件的发展,边缘设备的计算能力大幅度提高使得语音合成模型在本地运营沦为有可能。其次消费者对于隐私的忧虑与日俱增,在移动末端运营机器学习模型避免用户数据向云端外泄的威胁。
此外随着消费者对于语音助手的倚赖渐渐加剧,对于用户体验的注目也渐渐减少。为了获取较低延时的语音服务,减少网络连接质量带给的影响,本地运营的语音合成模型比云端模型更加有优势。典型的现代语音合成模型主要包括两个部分:合成器和声码器。其中合成器用作从文字输出分解声学特征,而后利用声码器从声学特征分解波形输入。
现存的高质量语音合成器都必须消耗十分相当可观的计算资源,SqueezeWave的主要目的在于提高合成器的效率。例如WaveNet及其变体基于自重返的方法,意味著每一个分解的样本都依赖先前的样本,这种串行的处理方式妨碍了硬件的分段加快;而基于东流的WaveGlow可以在每一次前长传分解许多样本,虽然这一方法具备分段优势但却必须消耗十分极大的计算出来量。例如分解1s22kHz的语音必须消耗229GMACs的计算出来量,相比之下多达了移动末端处理器所能忍受的范围。
尽管WaveFlow可以在近期的V100显示卡上超过多达动态的性能,但却不合适在边缘设备部署。在这篇论文中研究人员明确提出了一种轻量级的基于东流的声码器SqueezeWave用作边缘设备的语音合成。
本文来源:半岛平台-www.mysuggester.com