본문 바로가기

테크크런치기사

Google Cloud는 Google 자신이 사용하고있는 텍스트 음성 변환 엔진을 개발자에게 공개

출처 : https://jp.techcrunch.com/2018/03/28/2018-03-27-google-cloud-launches-its-new-text-to-speech-engine-for-developers/



그 Cloud Text-to-Speech 라는 서비스는 32 종의 목소리가 12 개 언어와 그 변종을 말하는. 이 서비스가 생성하는 MP3 또는 WAV 파일은 피치와 읽기 속도, 볼륨 등을 개발자가 커스터마이즈 할 수있다.

그러나 소리의 질에 변화가있다. 그것은 예를 들어, 영어는 6 종류의 목소리가 있기 때문 그들은 모든 텍스트에서 원시 오디오 를 만들기위한 DeepMind 모델 WaveNet로 만들어져있다.

WaveNet는 지금까지의 기술과 달리 짧은 발화 모임에서 음성을 합성하지 않는다. 그것은을하면 우리에게 친숙한 로봇 식의 말투가되어 버린다. 이에 대해 WaveNet은 기계 학습 모델을 사용하여 원시 오디오의 모델을 만들고, 더 자연스럽게 들리는 음성을 합성한다. Google이 실시한 테스트에서는 WaveNet의 목소리가 더 보통의 (인간의) 목소리보다 20 % 좋은 것이라는 평가되었다.

Google은 처음 WaveNet 언급 한 것은 약 1 년 전이지만, 그 회사는 회사 자신의 Tensor Processing Units 기반의 새로운 인프라에 이러한 도구를 옮겨 오디오 파형 생성을 지금까지의 1000 배 빠르게 했다. 그래서 지금은 1 초 오디오의 생성에 50 밀리 초 밖에 걸리지 않는다.

이 새로운 서비스는 모든 개발자가 사용할 수있는 . 요금표는 여기 에있다.


저작자표시 비영리