Translatotron是 Google AI 团队制作的语音到语音翻译模型,可以将语音从一种语言转换为另一种语言,同时保留说话者的声音!!
它有什么特别之处?
早期的模型曾经具有三个组件。
- 从语音到文本的转换
- 翻译文本
- 使用文本到语音引擎从翻译的文本生成语音
这些模型的主要缺点是任何一个阶段的错误都可能导致一些不需要的输出。
此外,文本到语音引擎的可用语音选项有限,例如 Microsoft Ana、Siri 等。
Translatotron 直接将语音翻译成语音,无需使用任何中间文本表示。因此,它能够保留原始说话者的声音。
优点和用途
- Translatotron 的最大优点是防止了说话者的人声特征。
- 未来可用于电影的自动配音——原演员配音。
- 可以使用母语访问视频教程。
挑战
- 翻译质量低于 Speech to Text -> Text to Speech 翻译级联模型。希望以后质量会有所提高。
- 欺骗他人的声音会更容易。因此,需要改进基于语音的身份验证系统。