오늘 (미국 시간 4/10), Google은 몇 주 전에 공개 한 클라우드 텍스트 음성 변환 서비스 의 API에 대대적 인 업데이트 한 것을 발표했다. Google은 동시에 역방향 서비스 인 음성 텍스트 변환 클라우드 음성 인식 AP I에 큰 개선을했다. Google의 테스트에 따르면, 새로운 API는 인식 오류를 전체로 54 % 감소했다. 그러나 일부의 경우에는 개선은 이보다 훨씬 웃돌았다.
업데이트 된 음성 텍스트 변환 API를 이용하면 개발자는 여러 유스 케이스를 기반으로 한 기계 학습 모델에서 적합한 것을 선택할 수있다. 새로운 API는 현재 4 개의 모델을 제공하고있다. 그 하나는 검색과 주문을위한 짧은 발화이다. 또한 전화의 음성 인식, 비디오 파일의 음성도 볼 수 있으며, Google은 모든 개발자에게 데호루토으로 추천하는이 네 번째 새로운 모델이다.
이러한 새로운 음성 텍스트 변환 모델 외에도 Google 펑크 츄 프로그램 (구두점) 모델을 업데이트했다. Google 개발팀 자신도 인정하고있는 바와 같이, 음성 인식에서 지금까지 가장 큰 문제가되고 온 것은 올바른 펑크 츄 프로그램의 생성이었다. 일로 화자가 보통과는 다른 발화의 버릇을 가지고 있다면, 펑크 츄 프로그램을 포함한 텍스트 일으키고는 매우 어려울
이것은 트럼프 대통령의 발언을 펑크 츄 프로그램을 포함하여 텍스트 일으켜하려고 시도 개발자라면 동의 할 것이다. 업데이트 된 모델은 훨씬 더 읽기 쉬운 텍스트를 생성 할 수 있다고한다. 문장의 칼집을 인식하는 데 실패하는 경우가 감소하고, 마침표, 쉼표, 물음표 등을 올바르게 삽입 할 때 Google은 말했다.
이번 API를 업데이트하여 개발자는 텍스트 일으켜함으로써 음성 파일 내지 비디오 파일에 태그 등 기본적인 메타 데이터를 부여 할 수있게되었다. Google은 사용자의 각종 기능의 사용 상황을 종합적으로 감안하여 다음 업데이트 개발의 우선 순위를 결정 해 나간다고한다.
Google은 서비스의 요금 체계도 다소 변경했다. 종래대로 오디오 파일의 텍스트 변환은 15 초마다 0.006 달러로 비디오는 그 2 배의 15 초마다 0.012 달러이다. 그러나 5 월 31 일까지 새로운 모델의 이용 요금은 15 초마다 $ 0.006 달러로 억제된다.
[일본 판]에 임베디드 된 예에서는 문장의 사이가 제대로 인식되지 마침표가 삽입되어있다. No, That 's 등의 시작 부분이 빨간색 문자로 강조되고있다.