출처 : https://techcrunch.com/2017/12/19/googles-tacotron-2-simplifies-the-process-of-teaching-an-ai-to-speak/?ncid=rss
설득력있는 인공 연설을 만드는 것은 뜨거운 욕구를 불러 일으키고 있습니다. 구글이 틀림없이 선두에 설 것입니다. 이 회사는 Tacotron 2의 발표로 신경 네트워크를 훈련하여 문법적 전문 지식이 거의 필요없는 텍스트에서 사실적인 연설을 이끌어 낼 수있는 새로운 방법을 다시 한번 발표했습니다.
새로운 기술은 WaveNet과 원래의 Tacotron이라는 두 가지 Google의 이전 음성 생성 프로젝트 중에서 가장 우수한 부분을 차지합니다.
WaveNet은 내가 한 번에 하나의 오디오 샘플을 " 유쾌 하게 설득력있는"연설로 만들었는데, 이는 사운드 디자인에 대해 잘 모르는 사람에게는 과장된 소리 일 것입니다. 그러나 효과적이지만 WaveNet은 발음, 알려진 언어 기능 등의 언어에 대한 많은 메타 데이터를 필요로합니다. Tacotron은 억양 및 운율과 같은 더 높은 수준의 기능을 합성했지만 실제로 제작하기에는 적합하지 않았습니다. 최종 음성 제품.
Tacotron 2 는이 두 부분을 사용합니다. 그러나이 시점에서 우리는 기술적 전문성의 한계에 도달했다고 솔직하게 인정합니다. 그러나 내가 말할 수있는 것부터, 텍스트와 텍스트의 서술을 사용하여 시스템이 일반적으로 명시 적으로 말해야하는 모든 언어 규칙을 계산합니다. 리듬과 강조의 목적으로 텍스트 자체는 Tacotron 스타일의 "멜 스케일 스펙트로 그램"으로 변환되는 반면, 단어 자체는 WaveNet 스타일 시스템을 사용하여 생성됩니다.
여기 에서 들을 수있는 몇 가지 예가 결과 오디오 는 거기에있는 것보다 훨씬 좋거나 우수합니다. 연설의 리듬은 납득이 간다. 주로 첫 번째 음절을 강조하는 "예의"와 같은 미국 영어 이외의 출처로 인해 특히 직관적이지 않은 발음으로 단어가 우뚝 댑니다. "Merlot"은 외모로 보이는 것처럼 유창하게 발음합니다. "극단적 인 경우에는 이상한 소음을 무작위로 생성 할 수도 있습니다"라고 연구진은 썼다.
마지막으로 웨이브 넷과 같이 악센트 및 기타 미묘한 부분을 구울 수 있지만 음성의 톤을 제어 할 수있는 방법은 없습니다 (예 : 낙천적 인 또는 우려되는 것).
시스템 교육을위한 장벽을 낮추면보다 많은 학습 방법을 학습 할 수 있으며 복잡한 수동 수식 룰 세트를 재평가하거나 새로운 언어 또는 말하기 스타일에 대한 새로운 룰 세트를 제공하지 않고도 새로운 접근 방식을 통합 할 수 있습니다.
연구자들은 IEEE 어쿠스틱, 음성 및 신호 처리 회의에서 심의를 위해 제출했습니다 . arXiv에서 종이 자체를 읽을 수 있습니다 .