본문 바로가기

카테고리 없음

고교생이 만든 "SmartLens"응용 프로그램은 범용 비주얼 검색에 첫 걸음이다

출처 : https://jp.techcrunch.com/2018/05/03/2018-05-01-smartlens-app-created-by-a-high-schooler-is-a-step-towards-all-purpose-visual-search/

 

 

몇 년 전, 나는 카메라를 돌리면 뭔가를 가르쳐주는 같은 응용 프로그램을 열망하고 있었다. 결국 그 문제는 모두가 기대했던 것보다 훨씬 어려웠지만 그 것은 고등학생 Michael Royzen의 의욕을 없애는 것은 아니었다. 그의 앱인 SmartLens 뭔가를보고 뭔가를 확인하고 더 자세한 내용을 알고 싶은 문제를 해결하려고하는 것이다. 솔직히 그것은 완벽한 성공이라고는 말할 수 없지만, 주머니에 숨겨둔 것이 저항은 없다.

Royzen가 저에게 연락 해 온 것은 조금 전의 일 이었지만, 나는 재미 있고 (사실 솔직히 의심과) 생각했다. Google과 Apple과 같은 기업도 계속 실패 해 온 (최소한 좋은 제품은 출시하지 못한) 문제 해결을 여유 시간을 사용하여 작업하는 고교생있는 것일까. 나는 그와 찻집에서 만나 실제로 동작하는 응용 프로그램을보고 놀라움과 약간의 혼란을 느꼈다.

이 아이디어는 단순하다 : 휴대 전화의 카메라를 뭔가에 돌리면 수천만 장의 이미지를 사용하여 훈련 된 거대한이지만 고도로 최적화 된 분류 에이전트를 사용하여 응용 프로그램이 그 대상을 식별 하려고한다. Wikipedia와 Amazon에 연결하여 응용 프로그램을 식별 한 것에 대해 더 자세히 알고도 구입 할 수있다.

그것은 1 만 7000 개 이상의 물체를 인식한다. 많은 종류의 과일과 꽃, 랜드 마크, 도구 등등. 응용 프로그램은 사과와 (약간 바뀌었다 명백한) 망고의 구별이나 바나나와 뿌란텐를 구별하는 것, 그리고 사이드 메뉴로 주문한 피스타치오의 식별에는 조금 고생했다. 그 후, 나 자신이 행한 테스트는 인근 식물을 특정하는데 매우 편리하다는 것을 알 수 있었다 : 대수리, 아네모네, 괭이밥 등, 아무도 주저없이 식별 한 것이다.

놀랍게도 이들은 모두 오프라인에서 이루어지고있는 것이다. 이미지를 모바일 회선이나 Wi-Fi를 통해 어딘가의 서버로 전송하여 분석하는 것은 아니다. 모든 장치에서 1 ~ 2 초 이내에 완료된다. Royzen는 다양한 소스에서 자신의 이미지 데이터베이스를 구축하고 AWS EC2 계산 시간을 며칠 동안 사용하여 여러 회선 신경망 (CNN)을 훈련했다.

또한 아이템의 텍스트를 읽고 Amazon 데이터베이스를 조회하여 더 많은 제품을 인식 할 수있다. 그것은 책, 약 병, 기타 패키지 상품을 거의 즉시 식별하고 그들을 구입 할 수있는 링크를 제공한다. 온라인 상태에서는 Wikipedia 링크도 팝업하지만, 상당한 양의 기본적인 설명이 장치에 다운로드 받는다.

참고로, SmartLens 다운로드 크기는 500 메가 바이트를 초과했음을 지적 해 두어야한다. Royzen 모델은 거대하다. 왜냐하면 휴대 전화에 모든 인식 데이터와 오프라인 컨텐츠를 유지해야하기 때문이다. 이것은 Fire Phone (RIP)에 Amazon 자신에 의한 인식 엔진과 Google Goggles (RIP) 또는 Google Photos 스캔 기능 (SmartLens이 0.5 초에서 인식 할 수있는 대상에 대해 유용하지) 등은 다양합니다 접근 방식을 채택하고있다.

"데스크톱 급 프로세서를 탑재 한 지난 몇 세대의 스마트 폰과 그 프로세서 (와 GPU)를 활용 할 수있는 네이티브 기계 학습 API의 등장으로 하드웨어는 엄청난 속도의 비주얼 검색 엔진이되었다"고 Royzen 이메일로 써왔다. 하지만 같은 일을 할 수 당연히 기대되는 대기업들은 어디도 그런 제품을 만들고 있지 않다. 그것은 왜 일까?

응용 프로그램의 크기와 프로세서에 부하는 확실히 문제의 한개이다. 그러나 에지 및 장치 내 처리는 이런 일이 궁극적으로 목표로하고있는 곳이다. Royzen는 그에 대한 빠른 출발을 뿐이다. 어려운 점이 2 개 : 수익을 창출하는 것은 어렵고, 검색의 질도 충분히 높지 않다는 것이다.

현재 SmartLens 스마트이긴하지만 틀림이 없다고는 말할 수 없다. 대상이 무엇인지에 대한 정답에 도달 직전에는 (종종 일어나는 일이지만) 폭소 비록 실수를 대답한다.

그것은 내가 가지고 있던 책을 "흰 고래 '라고 확인했지만, 그것은 책 「백경」아니었다. 또한 그것은 고래 모양의 문진이라고 말했다 것은, 원예 용 흙손이었다. 많은 항목에서 높은 신뢰도의 추측에 도달하기 전에 '인간'또는 '제품 디자인'이라는 추측이 깜박했다. 덩어리 꽃의 모임이 4 ~ 5 종류의 식물로 인식되는 ... 그 중에는 물론 '인간'도 섞여있다. 내 모니터는 "컴퓨터 디스플레이 ','액정 디스플레이 ','컴퓨터 모니터", "컴퓨터", "컴퓨터 스크린 ','디스플레이 장치 '등으로 인식되었다. 게임 컨트롤러는 모든 '컨트롤'이다. 주걱 나무 숟가락 (물론 가까운 일까) 였지만, 수수께끼 부제 '부비 상'이 첨부되어 있었다. 뭐라고?!

이러한 수준의 성능 (그리고 재미는 있지만, 이상한 행동)은 Google이나 Apple이 출시하는 독립형 제품으로는 허용되지 않는 것이다. Google Lens는 느리고 저조한 대용품이지만 편리하고 유용한 응용 프로그램 중 옵션 기능에 불과하다. 만약 꽃을 인간으로 식별 비주얼 검색 앱을 냈다면, 기업은 언제 까지나 그 말을받는 것이다.

그리고 또 하나의 과제는 수익 창출의 측면이다. 이론적으로는 친구가 가지고있는 책 표지를 인식하고 즉시 주문하는 것은 가능하지만, 그 것은 사진을 찍어 나중에 검색하거나 처음 몇 단어를 Google과 Amazon에 입력하면 용무가 충분한 것에 비해 그다지 편리하다고는 말할 수 없다.

반면에, 사용자 측에 망설임이있다. 그것이 식별 할 수있는 것은 무엇인가? 그것이 식별 할 수없는 것은 무엇인가? 무엇을 확인하면 좋은 것인지? 그것은 개 품종이나 점포 등의 많은 것들을 확인하는 것을 목적으로하고 있지만, 예를 들어, 친구가 가지고있는 멋진 Bluetooth 스피커와 기계식 시계 또는 현지 갤러리에 장식 된 그림 작가 등 를 식별하지 (비록 일부 그림은 인식된다). 그것을 사용하고있는 사이에, 나는 꽃의 식별과 같은 잘될 것으로 판명 된 작업에만 사용하게되어 갔다 생각한다. 그러나 그렇지 불확실 잘 가지 않는 것에 관해서는 좌절감이 쌓이는 뿐이므로, 시도 생각은 들지 않았다.

그래도 가까운 장래에 SmartLens 같은 것이 존재 하지 않는 것이라고 생각하는 것은 터무니 있다고 생각한다. 몇년은 우리가 그것을 당연한 것으로 취급하게되는 것은 분명하다. 또한 그들은 온 장치에서 행해져 분석을 위해 이미지를 어딘가의 서버로 업로드 할 필요가 없을 것이다.

Royzen 애플 리케이션 자신은 과제를 안고 있지만, 많은 경우에 매우 잘 작동하고 명백한 유용성이있다. 여기에서 아이디어는 길 건너 레스토랑에 휴대 전화를위한다면 2 초 Yelp 리뷰를 볼 수있는 등 것이다 맵을 열 필요없이 주소와 이름을 입력 할 필요도 없다. 이러한 것은 기존의 검색 패러다임의 자연스러운 연장 선상에있는 것이다.

"비주얼 검색은 아직 틈새하지만 내 목표는 응용 프로그램이 주변의 모든 것에 관한 유용한 정보를 알려주게되면 어떻게 느끼는지를 모두에게 전할 것입니다 - 그것은 도 지금 "고 Royzen는 쓰고있다. "하지만 대기업이 궁극적으로는 경쟁 제품을 출시하는 것은 필연적입니다. 내 전략은 첫 번째 보편적 인 비주얼 검색 앱으로 시장에 나오고, 선행자이고 계속할 수 있도록 (또는 인수 된 도록) 많은 사용자를 수집하는 것입니다. "

하지만 가장 큰 불만은 응용 프로그램의 기능 자체가 아니라 Royzen 그것을 마네 타이즈 할 때 결정 방식이다. 사용자는 앱을 무료로 다운로드 할 수 있지만, 시작하면 바로 한달에 2 달러 (일본에서는 월액 200 엔)의 가입을 고무시키는 것이다 (아직 앱이 제대로 작동하는지 여부도 보지 못했어요 데). 만약 응용 프로그램이 무엇을하고 무엇을하지 않는지를 이미 알고있는 것이 아니라면, 그 대화를 본 순간 생각 곧 제거 할 것이다. 그리고 만일 그것을 지불했다고해도 그것을 영원히 계속 지불하는 것은 아니다.

응용 프로그램을 활성화하기위한 일회성 수수료를 징수 할 수 아마 타당 할 것이다 또한 추천 코드를 제공하는 옵션은 항상 존재하고있다. 그러나 제품의 테스트조차하지 않은 사용자 집세를 징수하려는 것은 성공할 가망이 없다. 나는 Royzen에 우려를 전했다. 나는 그가 재고 해 줄 것을 바라고있다. (역주 : 5 월 2 일 현재 구독 등록은 필요한 상태지만 처음 30 일간은 무료이다.이 기간 동안 해지하면 요금은 발생하지 않는다).

이미 촬영 한 이미지를 검색 할 수 있도록하고, 검색에 사용 된 이미지를 저장할 수 있도록하는 것도 좋을 것이다. 신뢰도 지표와 같은 UI 개선과 그것이 아직 확인 중임을 알리는 어떠한 피드백도 있으면 좋겠다, 최소한 이론적으로는 이러한 기능을 제공 할 수있다.

티격태격는 보았지만, 나는 Royzen의 노력에 깊은 감명을 받고있다. 한 걸음 물러서서 바라 보면 고등학생이라는 것은 않겠지도 이렇게 정교한 컴퓨터 비전 작업을 실행할 수있는 응용 프로그램을 혼자서 정리 올렸다는 것은 엄청난 일이다 . 이것은 10 년 이전 Google과 같은 크고 장난기있는 회사에서 나오는 것으로 예상 할 수있는 (과장) 야심 응용 프로그램의 일종이다. 이것은 지금까지 일반 도구 라기보다는 호기심 선행의 것일지도 모르지만, 첫 번째 텍스트 기반의 검색 엔진도 비슷한 것이었다.

SmartLens은 현재 App Store에서 입수 가능하다 - 사용 해보세요.

저작자표시 비영리 (새창열림)