본문 바로가기

테크크런치기사

SignAll은 느리지 만 꾸준히 수화 통역 플랫폼을 구축 중

출처 : http://jp.techcrunch.com/2018/02/15/2018-02-14-signall-is-slowly-but-surely-building-a-sign-language-translation-platform/


번역은 어려운 작업이다. 두 언어의 거리가 멀어 질수록 그것은 어려워진다. 프랑스에서 스페인? 그다지 문제는 없다. 고대 그리스어에서 에스페란토? 상당히 어려울 것이다. 그러나 수화는 독특하다. 그리고 그 번역의 어려움도 독특하다. 왜냐하면 이야기되거나 작성하거나 언어와는 근본적으로 다른 것이기 때문이다. 이러한 사정에서 SignAll 는 미국 수화 (American Sign Language : ASL)의 정확한 실시간 기계 번역을 실현하기 위해 수년간 노력해왔다.

AI와 컴퓨터 비전에 현재 일어나고있는 발전을 생각하면, 이러한 해결하는 것이 재미 있고 유익한 문제는 이미 유명한 중 주요한 무렵 일제히 작동하는지 것이라고 상상할지도 모른다. 냉소적 인 시장 확대의 관점에서 생각해도 수화를 이해할 수 Echo와 TV는 수백만 명의 새로운 (그리고 감사를 바쳐주는) 고객을 유치 할 것이다.

그러나 불행히도 그러한 것은 일어나지도 않은 것 같다. 그것이이 부다페스트에 위치한 작은 기업이다 SignAll 같은 회사에 불편한 사람들에게 편의를 제공하는이 어려운 일이 남아있는 이유 다. 그리고 수화를 실시간으로 번역하는 것은 생각했던 것보다 복잡하다는 것을 발견 한 것이다.

CEO의 Zsolt Robotka과 최고의 연구 개발 책임자 MártonKajtár가 올해 CES에서 전시를하고 있었다. 나는 그 자리에서 회사의 수들이 도전하고있는 과제, 그리고이 분야가 어떻게 발전해 나갈 것인가에 대한 이야기를 들었다 (나는 그들이 2016 년 Disrupt SF에도 출전 있던 것을 알고 기뻐했다. 불행히도 그 때 그들이 보는 것은 없었다지만).

아마도이 사업에서 나에게 가장 흥미로운 것은 그들이 해결하려고하는 문제가 얼마나 재미 있고 그리고 복잡한 것인지 것이다.

"이것은 멀티 채널 커뮤니케이션입니다. 사실, 중요한 것은 모양과 손의 움직임 만이 아니다."라고 Robotka는 설명한다. "수화를 정말 번역 싶다면 상체의 움직임과 얼굴 표정을 모두 추적해야합니다.이 것은 컴퓨터 비전의 부분을 매우 어려운 일합니다."

조금 생각한 것만으로도 그것은 힘든 작업이며, 약간의 움직임도 추적하는 것을 생각하면 그것은 엄청난 금액이 될 것이다. 현재의 시스템은 Kinect 2를 중심에두고 3 개의 RGB 카메라를 1-2 피트의 위치에 설치하고있다. 사람의 말투도 조금씩 달리다시피, ASL 사용자도 조금씩 다르게 작동한다. 이 때문에 시스템은 새로운 사용자마다 재조정 할 필요가있다.

"이 복잡한 구성 설정이 필요한 것은 이렇게함으로써 다른 관점을 가질 수 그 덕분에 시간과 공간 (재생률 픽셀 수)에 대한 해상도의 부족을 보충 할 수 있기 때문이다"고 Kajtár 는 말한다. "ASL는 매우 복잡한 손가락의 움직임을 할 수 있지만 손을 골격으로 파악 종래의 방법은 도움이되지 않습니다. 왜냐하면 손가락끼리 겹치는 때문입니다. 그래서 사이드 카메라를 사용하여이 겹쳐 를 해결하고 있습니다. "

그럼 충분하지 말 것처럼 얼굴 표정과 제스처의 작은 변화도 전해진다에 참가한다. 예를 들어 감정의 추가와 방향 지시 등이다. 그리고 또한 수화는 영어 나 다른 일반적인 구어와는 근본적으로 다르다라는 사실이있다. 이것은 단순한 대체가 아니라 완전하게 번역 한 것이다.

"수화의 본질은 연속적인 몸짓 (로그인)입니다.이 성격에서 언제 하나의 사인이 끝나고, 그리고 언제 다음 사인이 시작된 지 구별하기가 어렵습니다"라고 Robotka는 말한다. "그리고 그것은 또한 매우 이질적인 언어이기도합니다. 어휘에서 주워 단어 단위로 번역을 할 수 없습니다."

SignAll 시스템은 순차적으로 제시되는 개별 단어뿐만 아니라 완전한 문장을 대상으로 동작한다. 로그인을 하나씩 캡처하여 번역 해 나가는 시스템 (성능이 제한된 버전은 존재한다)은 알려져있는 것에 대해 잘못된 해석이나 지나치게 단순화 된 표현 를 만들어 쉽다. 가는 방향을 물어 같은 간단한 커뮤니케이션에 충분 수도 있지만, 정말 의미있는 커뮤니케이션은 감지되었지만 정확하게 재현되어야한다, 여러 층으로 겹쳐 복잡한 계층 구조로 구성되어있다 것이다.

이러한 두 가지 커뮤니케이션 수준 사이의 어딘가를 목표로 SignAll은 갤러 뎃 대학교 에서 처음 공개 시범 사업을 실시하려고하고있다. 이 워싱턴 DC에있는 청각 장애인을위한 학교는 방문객 센터의 리노베이션을 실시하고있는 한중간이지만, SignAll 여기에 방문한 정상 청력들이 청각 장애 직원과 상호 작용할 수 있도록 할 번역 부스를 설치한다 .

갤러 뎃 대학교 방문자 센터에 놓인 AignAll 장비 데스크의 상상도

Robotka, 이것은 시스템의 테스트를 할 수있는 좋은 기회라고 말한다. 일반적으로 정보 제공은 반대 방향에서 청각 장애인이 정상 청력들로부터 정보를받는 입장이기 때문이다. 수화 수없는 방문자가 말하는 수도 있고, (만약 직원이 読唇術을 사용할 수없는 경우에는) 그 질문은 텍스트로 변환된다. 그리고 직원의 수화 반응은 텍스트로 변환 된 음성 합성이 이루어진다.

이것은 복잡한 방법 소리, 실제로 기술은 매우 복잡하지만, 현실적으로는 어느 쪽의 사람도 보통으로하고있는 것 이상의 일을 할 필요는 없다. 그래서 상대에게 이해받을 것이다. 조금 생각해 보면 이것이 얼마나 놀라운 것인지 알 것이다.

파일럿 테스트의 준비를 위해, SignAll와 갤러 뎃 대학교는 협력하여 현재 사용되고있는 응용 프로그램이나 대학 고유의 상황에 대한 사인의 데이터베이스를 작성하고있다. 모든 수화 사인을 나타내는 포괄적 인 3D 표현은 존재하지 않는, 따라서 당분간 시스템은 배치 된 환경에 따라 제공된다. 도메인 특유의 제스처가 순차적으로 데이터베이스에 추가되어 가게된다.

갤러 뎃 대학교의 학장의 Roberta Cordano (중앙의 회색 스웨터의 인물)가 부다페스트 SIgnAll 사무실을 방문했을 때의 모습. 그녀의 좌측 뒤에서는 것이 Robotka 맨 오른쪽에 위치한 것이 Kajtár.

"이러한 3D 데이터를 수집하는 것은 정말 힘들었습니다. 그들의 협력을 얻어, 정확하게 작업이 끝난 곳입니다"라고 Robotka는 말한다. "인터뷰를하고 거기서 발생하는 대화를 모으고 모든 언어 요소와 사인이 모아지게했습니다. 우리는 처음 2,3 파일럿 프로젝트에서 유사한 사용자 작업을 반복하게 된다고 생각하고 있습니다. "

이 장기간에 걸친 프로젝트는 기술의 가능성과 한계를 모두 냉정하게 생각 나게 것이다. 물론 수화 자동 번역, 컴퓨터 비전, 기계 학습, 영상의 발전을 통해 가능하게 된 것은 틀림 없다. 그러나 다른 많은 번역과 컴퓨터 비전 작업과 달리 기본적인 정확성을 달성 할뿐만 아니라 인간 중심주의의 측면이 확실히 포함되도록하기 위해 대량의 인간의 입력 필요로하는 것이다.

결국, 이러한 활동은 단순히 우리가 외국의 뉴스 기사를 읽거나 해외로 의사 소통을 할 때의 편의에 머무는 이야기가 아니라 많은 사람들이 대면 커뮤니케이션으로 생각하고있다 "대화"라는 의미에서 배척하는 사람들의 편의에 관한 이야기이다. 그들의 운명을 좋게 갈 기다릴만한 가치가있다.