Parrotron: 提升语言障碍人士口头交际能力的新研究 - 码农俱乐部 - Golang中国

文 / Fadi Biadsy 与 Ron Weiss

大多数人都会想当然地认为，他人能够听到和理解自己说出的话语，但是仍有数百万人因身体或神经系统疾病等问题而遭受语言障碍的困扰。

Parrotron 介绍

对于他们而言，尝试与他人交流可能十分困难，而且还会由此带来挫折感。尽管自动语音识别（ASR；即“语音转换为文字”）技术已在近期取得了诸多进展，但对于语言障碍者来说仍遥不可及。

Parrotron 语音转换模型

Parrotron 是基于注意力机制的序列到序列模型，此模型分为两个阶段并行使用一套输入 / 输出语料库进行训练。

首先，我们针对标准流畅的语音构建通用的语音到语音转换模型，然后按照目标说话者的方言语音模式调整模型参数进入个人化阶段。采集监督式训练所需的平行训练数据是配置过程面临的主要挑战。该训练数据包括多个说话者的话语，且此类话语还需单独映射至与对应说话者输出语音内容。构建高质量模型需要大量训练数据，但让单个人进行长时间录制并不现实，因此 Parrotron 自动使用了 TTS 系统生成的平行数据。这样，我们就能使用已有的匿名转录语音识别语料库来实现训练目标。

训练第一阶段使用了时常约 3 万小时的语料库，其中包含数百万匿名语音对话片段。每对片段都含有一个原始语音和与之相匹配的自动合成式语音话语，后者是由尖端 Parallel WaveNet TTS 系统根据原始话语的转录文字生成。

此数据集包括来自数千位参与者的语音片段，囊括数百种方言、口音和声音情形。这使我们能够在同一种语言中，对“典型”语音进行模拟各种声音、语言和非语言内容、口音以及噪音情形。由此构建的转换模型能够呈现包括说话者特征在内的所有非语言信息，同时仅保留说话内容，而排除说话者的身份、所处地点或说话方式等其他影响。此基础模型用于开展第二个训练即个性化训练阶段。

第二训练阶段使用对话语料库，其生成方式与第一阶段相同。不过，此语料库用于帮助网络适应输入话语发出者的特殊声音和语音、音素结构以及语言模式，这可能包括学习目标说话者如何更改、替换、减少或移除特定的元音或辅音等。为了大致构建 ALS 患者的语音特点的模型，我们提取并使用了 Euphonia 项目 ALS 语音语料库中的话语。相反，若想针对特定说话者对该模型作出个性化修改，我们便会使用由该说话者提供的话语。语料库越大，正确转换为流畅语音的可能性也就越大。我们使用第二个较小的个性化平行语料库，并运行神经训练算法来更新预训练的基础模型中的参数，进而生成最终的个性化模型。

我们发现，若通过多任务目标进行模型训练来生成目标语音的声谱图，这可以显著改进模型质量同时也能预测目标音素。此类经过多任务训练的编码器可以视为是在学习输入数据的潜在表示，这将能保留隐含语言内容的相关信息。

Parrotron 模型架构概览，将一个输入语音声谱图传入编码器和解码器神经网络，从而以新的声音生成输出声谱图

案例研究

为验证概念，我们与其他 Google 研究员合作，同时邀请数学家 Dimitri Kanevsky 前来协助。Dimitri 出生于俄罗斯，父母均说俄语且听力正常，但 Dimitri 幼年便严重失聪。他在青少年时期，通过使用俄语词汇表示英文单词的发音而学会了英语，同时还将英语音译为俄语而学会了英语发音（例如，The quick brown fox jumps over the lazy dog => ЗИ КВИК БРАУН ДОГ ЖАМПС ОУВЕР ЛАЙЗИ ДОГ）。因此，Dimitri 的语音与英语母语使用者截然不同，对于不适应其发音习惯的系统或听者来说，理解起来极其困难。

Dimitri 录制了 15 小时的语音片段，随后我们使用该语料库来调整基础模型，以使模型适应他语音中的细微差别。最终生成的 Parrotron 系统帮助他在人际交流和 Google ASR 系统中获得了更好的理解。在使用 Dimitri 提供的测试集进行的测试中，基于 Parrotron 输出来运行 Google ASR 引擎，单词错误率从 89% 大幅降至 32%。以下示例演示了 Parrotron 是如何成功转换 Dimitri 的输入语音：

Dimitri 说：“How far is the Moon from the Earth?”（月球距地球多远？）

Parrotron（男性声音）说：“How far are the Moon from the Earth?”（月球距地球多远？）

我们还与倡导包容残疾人的 Google 员工 Aubrie Lee 开展了合作。她患有肌肉萎缩症，这种疾病会导致渐进性肌肉无力，有时还会影响发声。Aubrie 提供了 1.5 小时的语音片段，这有助于展示此技术的良好应用前景。以下示例演示了 Parrotron 如何成功转换 Aubrie 的输入语音：

Aubrie 说：“Is morning glory a perennial plant?”（牵牛花是不是多年生植物？）

Parrotron（女性声音）说：“Is morning glory a perennial plant?”（牵牛花是不是多年生植物？）

Aubrie 说：“Schedule a meeting with John on Friday.”（安排星期五与 John 开会。）

Parrotron（女性声音）说：“Schedule a meeting with John on Friday.”（安排星期五与 John 开会。）

我们还测试了 Parrotron 处理 ALS 患者语音的性能，具体方法为：将多个拥有相似语音特征的说话者归为一组，并根据该组说话者说话者调整预训练模型。我们还进行了初步听力研究并发现，对于绝大多数测试的参与者而言，相比于原始 ALS 语音，Parroton 模型对应生成的语音会更易被理解。

递进式方法

Euphonia 项目已经构建个性化语音到文字模型，可将失聪说话者的单词错误率从 89% 降至 25%，而目前正在进行的研究更有可能进一步改进这一结果。通过使用此类语音到文字模型，仅将其输出传入 TTS 系统，再根据结果合成语音，即可实现类似于 Parrotron 的目标。然而，在此类方法中，识别器可能会选择错误词语（此案例中的单词错误率约为 25%）。换言之，这可能产生偏离原意的词语或句子，导致这些词语合成的音频将会与说话者的本意相去甚远。考虑到 Parrotron 使用的的端到端语音到语音训练目标函数，即便出现错误，模型生成的输出语音听起来可能也会与输入语音很相近，因此说话者的本意不大可能遭到严重偏离，而且仍有可能获得听者的理解：

Dimitri 说：“What is definition of rhythm?”（节奏的定义是什么？）

Parrotron（男性声音）说：“What is definition of rhythm?”（节奏的定义是什么？）

Dimitri 说：“How many ounces in one liter?”（一升有几盎司？）

Parrotron（男性声音）说：“Hey Google, How many unces [sic] in one liter?”（嗨 Google，一升有几 unce [原文如此]？）

Google 助理说：“One liter is equal to thirty-three point eight one four US fluid ounces.”（一升等于 33.814 美式液量盎司。）

Aubrie 说：“Is it wheelchair accessible?”（轮椅方便进入吗？）

Parrotron（女性声音）说：“Is it wheelchair accecable [sic]?”（轮椅方便进 [原文如此] 吗？）

此外，由于 Parrotron 并不十分倾向于按照预先定义的词汇集生成词语，因此模型输入可能包括新造词语、外文词语和名称，甚至还会包含无意义词汇。我们观察到，在将阿拉伯语和西班牙语话语输入给到美式英语 Parrotron 模型时，模型生成的目标语音输出往往会以美式口音呼应原语音内容。相比于仅运行 ASR 而后搭配使用 TTS 方法获得相应内容，此行为有本质区别。最后，通过将多个独立调整的神经网络整合为单一神经网络，我们还相信模型潜藏着巨大的改进和简化空间。

结论

凭借其端到端语音转换方法，Parrotron 能够更准确地重现用户想要表达的语音内容，从而帮助方言语音用户更轻松地表达自己，同时更便于他人和语音界面获得理解。我们的论文中探讨了 Parrotron 更多炫酷的应用场景，您还可在我们的 GitHub 代码库中找到其他音频样本。如果您想加入我们的研究队列，请填写这份简易表单并自发录制一组简短话语。我们期待与您合作！

致谢

此项目为 Speech 和 Google Brain 团队的合作成果。

贡献者包括 Fadi Biadsy、Ron Weiss、Pedro Moreno、Dimitri Kanevsky、Ye Jia、Suzan Schwartz、Landis Baker、Zelin Wu、Johan Schalkwyk、Yonghui Wu、Zhifeng Chen、Patrick Nguyen、Aubrie Lee、Andrew Rosenberg、Bhuvana Ramabhadran、Jason Pelecanos、Julie Cattiau、Michael Brenner、Dotan Emanuel、Joel Shor、Sean Lee 和 Benjamin Schroeder。

另要感谢 ALS-TDI 与我们热诚合作，助推我们大幅加速数据收集工作。