利用深度学习进行语音转换

Voice Conversion With Deep Learning

Posted by CL on February 23, 2020

大创项目主要是进行深度学习语音转换方面的研究,这段时间看了很多篇论文和相关代码,希望在这篇文章里介绍一下语音转换问题和相关的研究范式和研究成果。

语音转换问题介绍

语音转换任务其实很像是柯南的蝴蝶结变声器,经过语音转换后,声音源(Source Speaker)说的话听起来像另外一个人(Target Speaker)说的而内容保持不变。

以下用SS和TS作为Source Speaker和Target Speaker的简写

语音转化属于自然语言处理下的一个分支,与其相关的任务还有语音识别,语音合成,声纹识别,语音克隆等,他们的任务目标各有所区别。

进一步细分,现在的语音转换技术有这样几个细分类:

  1. 平行语料的语音转换
  2. 不平行语料的语音转换
  3. 跨语种的语音转换

平行语料的语音转换指的是在训练数据中有SS和TS说相同内容的一句话的语句对(Pairs),不平行语料的语音转换则是训练数据中SS和TS说的话的内容都不相同,跨语种的语音转换则是SS和TS说不同的语言。这三种任务的难度依次递增,作者认为其原因是三种任务对说话人音色的提取完全性要求依次加深。简单来说,说同种语言的情况语音的内容的相关性还可以作为辅助因素帮助语音转换,而说不同种语言的情况下则完全依赖对声色的提取,语音内容部分的作用几乎为0。

##语音转换的一般流程 在提到语音转换任务的一般流程之前我们需要先了解语音任务的一般步骤。

语音作为模拟信号的一种,要能被计算机的处理必须经过抽样量化的离散化过程。所谓抽样,就是将连续信号在固定的抽样频率下进行抽样从而得到离散信号的过程,这个抽样频率也叫声音的采样率,一般来说采样率越高声音的保真度就越高,这里采样率的设置要符合奈奎斯特定律即采样率必须是原信号中最高频率的两倍以上。所谓量化 ,就是将连续的值映射到离散可供计算机存储的离散的值上。

语音转换任务一般分为三个步骤:

  1. 特征提取
  2. 特征转换
  3. 语音合成