https://techcrunch.com/2017/10/10/deepgram-opens-up-its-machine-transcription-platform-to-everyone/?ncid=rss

Deepgram 은 오디오 데이터를 학습하는 머신을 적용하는 회사로서 , 오늘 아침 무료로 자사의 머신 트랜스 미션 플랫폼을 공개합니다. 트린트 (Trint) 와 같은 다른 서비스에 대한 비용을 지불 할 필요가 없으므로 자동화 된 전사 작업의 더러운 작업을 수행 할 수 있습니다. 힌트 : 그것은 데이터와 관련이 있습니다.
기계 번역은 풀리지 않습니다. 사실, 기계는 아무 것도 해결되지 않습니다. 요즘 모든 사람들이 머신의 모든 것을 해결하기 위해 데이터 포트 노크스 (Fort Knox)를 만들기 위해 서두르고 있습니다. Deepgram의 접근 방식은 누구나 자신의 오디오 컨텐츠를 업로드하고 검색 가능한 텍스트를 수신 할 수 있도록 해설 서비스를 무료로 제공하는 것입니다.
This approach isn’t particularly unique — as I said, everyone needs data. Don’t forget that Image Captchas are basically a means of forcing plebeians to label image data sets for training machine learning models.
Deepgram is using deep learning for its transcription tool (surprise!) — good old convolutional and recurrent neural networks. Everything is generalized in the free version, but paid offerings might include custom training on company and product names, as well as terms of art in a given industry.
I uploaded to the service an hour-long interview I did about a week ago to test it out. The file was recorded in a noisy restaurant and consisted of two people having a dialog. The transcription quality was far from perfect — but it wasn’t meaningfully worse than anything else on the market.
I was able to search for a specific quote I remembered and after three attempts, I found the segment of dialog. I wouldn’t be able to copy and paste it without angering the interviewee, but it would have given me the context I needed to tell my story. The search process took about five minutes and, to Deepgram’s credit, it was obvious that searches were using the sounds of words to find more matches. The thing to remember is that the service costs considerably less than more accurate human transcription and will improve with time.
“ASR is not solved,” Scott Stephenson, co-founder and CEO of Deepgram, explained to me in an interview. “It’s solved for specific data sets but with noisy accented call data, any service will do a poor job with it.”
플랫폼 외에도 Deepgram은 기계 번역을위한 거의 무료 API를 제공합니다. 백만 분을 초과하여 사용하면 계산 비용이 많이 소요되므로 누군가가 50 테라 바이트 오디오 파일로 회사를 트롤 할 수 없게됩니다.
인간이 여전히 필사 세계에서 최고를 달구고 있지만, 합성 오디오가 가까운 장래에 기계에 유리하게 그 확률을 떨어 뜨릴 가능성이 있습니다. 텍스트에서 음성을 생성하는 WaveNet 과 Lyrebird 와 같은 프로젝트는 Deepgram 과 같은 거대한 기계 번역 시스템과 Tech 거인이 만든 번역 시스템을 돌릴 가능성이 높은 드문 단어에 대한 데이터로 시스템을 보완하는 데 도움이 될 수 있습니다.
주요 이미지 : Colin McConnell / 기여자 / 게티 이미지