출처 : https://jp.techcrunch.com/2018/04/09/2018-03-27-data-is-not-the-new-oil/

(일본어 버전 참고 :이 글은 Jocelyn Goldfein와 Ivy Nguyen 의해 집필 된 기사 .Jocelyn Goldfein는 Zetta Venture Partners 의 업무 집행 이사. Ivy Nguyen은 Zetta Venture Partners 의 공동 경영자)
소프트웨어의 개발이 이전보다 쉬워 진 것으로, 소프트웨어 비즈니스에 몸을 지키는 것은 이전보다 어려워지고있다. 따라서 투자자와 기업가가 데이터에 새로운 경쟁력의 가능성이 있다고 낙관하는 것은 놀라운 일이 아니다. 데이터는 "새로운 석유"라고 칭찬하는 사람도있다. 우리는 비즈니스 문제를 해결 해주는 데이터와 AI를 활용하기 시작 투자에 주력하고 있기 때문에, 확실히 그런 소리를 듣는 것이지만, 석유에 비유는 조금 다르다고 생각한다.
빅 데이터에 대한 관심은 매우 높지만, 모든 데이터가 동등하게 만들어져있는 것은 아니라는 사실은 간과이다. 시작도 대기업들도 한목소리 테라 바이트 급이라고 미국 의회 도서관에 들어있는 정보보다 많은 데이터를 보유하고 있거나 자신들이 집적 된 데이터의 양을 자랑하는이 양 그냥 "데이터 모트"(Data Moat : 데이터 해자)를 구축 할 수 없다.

데이터 전략의 변천 왼쪽에서 "워크 플로우 도구 (데이터 없음)" "데이터 통합" "데이터 기반 선순환 (AI / ML)」 「데이터 모트"
그 이유 중 하나는 원시 데이터는 문제 해결에 사용할 수있는 데이터에 비해 가치가 아득하게 떨어지는 경우가있다. 그것은 공개 시장을 보면 알 수있다. 닐슨 과 아쿠시오무 등의 데이터의 수습 및 제공을 업무로하는 기업은 넷플릭스 나 페이스 북과 같은 데이터를 알고리즘과 기계 학습 (ML)과 결합하여 제품을 생산하는 기업과 비교하면 기업 평가 몇 번째를 어떻게 든 유지하고있는 정도 다. 새로운 세대의 AI 시스템 시작은 그 차이를 잘 마음가짐있어 수습 한 데이터로부터 가치를 추출하기위한 ML 모델을 채택하고있다.
ML 기반 솔루션에 데이터를 사용할 수있다하더라도 그 데이터 세트의 크기는 또 다른 이야기이다. 데이터 세트의 가치, 즉 데이터 모트의 강도는 문맥에 의한 다. 응용 프로그램은 고객에게 어떤 가치를 제공하기 위해 매우 정밀 훈련 모델을 필요로하는 것이 있는지 생각하면 단지 소량 데이터 또는 전혀 데이터를 필요로하지 않는 경우도있다. 독점적으로 소유 할 수있는 데이터도 있고, 이미 복제 된 데이터도있다. 시간이지나면서 가치가 상실된 데이터도 있고, 영원히 가치를 계속 유지하는 데이터 세트도있다. 응용 프로그램이 데이터의 가치를 결정하는 것이다.
"데이터 욕심"의 범위를 규정하는
최종 사용자에게 가치있는 기능을 제공하기 위해서는, ML 응용 프로그램은 폭넓게 많은 데이터를 필요로한다.
MAP 한계
클라우드 분야는 실용 최소한의 제품 (MVP)라는 개념이 뿌리 내리고있다. 초기 고객을 찾아 내는데 필요한 기능만을 갖춘 소프트웨어 군이다. 인텔리전스 분야에서 우리는 데이터 나 모델에서 볼 수있는 아날로그 부분에 주목하고있다. 채용을 정당화 할만한 최소한의 정밀도를 가진 정보이다. 이것을 우리는 최소한의 알고리즘 성능 (MAP)라고 부르고있다.
대부분의 경우 응용 프로그램에서 가치를 만들어내는 데 필요한 정밀도는 100 %가 아니어도 좋다. 예를 들어, 의사를위한 생산성 도구가 있었다고하자. 처음에는 건강 상태를 전자적으로 기록하는 시스템의 데이터 입력을 보조하는 역할을하지만, 시간이 지남에 어떤 의사가 시스템에 들어 있는지를 학습하여 데이터 입력을 자동화 할 수있게된다. 여기에서는 MAP은 제로이다. 사용하기 시작한 첫날부터 그 소프트웨어의 기능이 가치를 발휘하기 때문이다. 인텔리전스는 나중에 추가된다. 하지만 AI가 중심이되어있는 제품 (예를 들어, CT 스캐너에서 뇌졸중을 확인하는 도구)의 경우는 살아있는 인간이 할 때와 동일한 정도의 솔루션이 요구된다. MAP는 인간의 방사선의 능력과 동등하게 제품으로서 성립되기 전까지는 무서울 정도로 많은 양의 데이터가 필요로된다.
성적의 한계
100 퍼센트에 가까운 정확도가 있어도 모든 문제가 해결되는 것은 아니다. 너무 너무 복잡하여 최첨단 기술을 구사 한 모델을 필요로하는 문제도있다. 이 경우 데이터는 특효약이되지 않는다. 데이터를 늘림으로써 모델의 성적은 점차 개선 되겠지만 곧 한계 이익 감소에 직면 해 버린다.
반대로, 추적 할 차원이 적고, 결과의 폭이 작고, 비교적 간단하게 모델링 할 수있는 문제의 경우는 너무 적은 토렌구 된 데이터 세트로 해결되어 버린다.
쉽게 말하면 문제를 효율적으로 해결하는 데 필요한 데이터의 양에 따라 바뀔 것이다. 실용적인 수준의 정밀도에 도달하기 위해 필요한 훈련 된 데이터의 양을 우리는 "성적의 한계"(Performance Threshold)라고 부르고있다.

서류 처리의 MAP과 성적의 역치의 관계 세로축은 정확도 가로축은 교육용 삽화 (문서 수). 왼쪽 "성적 한계 = 문서 번호 200 '오른쪽'MAP = 93 % (인간에 의한 처리의 정확성)"
AI를 사용한 계약 처리는 성적의 역치가 낮은 응용 프로그램의 좋은 본보기이다. 계약의 종류는 수천라고 있지만, 대부분은 계약에 관련된 사람들, 가치를 교환하는 아이템 기한 등 일반적인 요점이있다. 담보 또는 임대 계약 등의 서류는 규정을 준수해야하기 때문에 대부분 정형화되어있다. 불과 수백 가지의 예를 통해 교육뿐만 실용적인 정도 증가된다 자동 문서 처리 알고리즘을 개발 한 시작을 우리는 많이 봐왔다.
기업가는 균형 감각이 필요하다. 성적 임계 값이 높으면 고객에게 사용해 보시기 더 많은 데이터를 수집하기 위해 충분한 데이터를 모아야한다는 '닭이 먼저 냐 달걀이 먼저 냐'와 같은 문제에 다다르게된다. 낮은 많으면 데이터 모트는 쌓아 올릴 수 없다.
안정성의 한계
ML 모델은 그것이 이용된다 현실 환경에서 예를 모으고 훈련된다. 그 환경이 조금씩 또는 갑자기 변화했을 때, 그에 따라 변화하지 못하면 모델은 노화한다. 즉, 모델의 예측은 더 이상 신뢰할 수 없다는 것이다.
예를 들어, 시작 Constructor.io 는 ML을 사용하여 전자 상거래 사이트의 검색 결과를 평가하고있다. 그 시스템은 고객이 검색 결과를 클릭할지 여부를 관찰하고 그 데이터를 사용하여 더 나은 결과를 얻기 위해 순서를 예측하는 것이다. 그러나 전자 상거래의 제품 카탈로그는 항상 변화하고있다. 만약 그 모델이 모든 클릭의 가중치를 동일하게 생각하고 있으면, 또는 특정 시간의 데이터 세트 만 훈련되어 진다면 기존 제품의 가치를 과대 평가하거나 새로운 제품이나 현재 인기 제품 거기에서 제외 해 버리거나 할 우려가 나온다.
모델의 안정성을 유지하고 싶다면, 환경의 변화 속도에 맞춰 최신의 학습 데이터를 가져올 필요가있다. 우리는 이러한 데이터 검색 속도를 "안정성의 한계"라고 부르고있다.
단명 데이터는 강력한 데이터 모트는 만들 수 없다. 한편, 안정성의 역치가 낮은 경우, 풍부하고 신선한 데이터에 대한 지속적인 액세스는 큰 장벽이되어 버린다.
장기적인 방어력 기회를 파악
MAP 성적 한계 안정성 한계는 강력한 데이터 원격 구축시 핵심 요소이다.
새로운 카테고리에 뛰어 선행자는 MAP가 낮은 기업이 있지만, 일단 카테고리를 설정하고 거기를 견인하게되면 나중에 참가하는 사람들의 문턱은 선행자 때와 같거나 보다 높아진다.
성적 임계 값에 도달 할 때까지 필요한 데이터와 성적을 유지하기 위해 (안정성의 한계)에 필요한 데이터의 양이 적다 분야에서는 방어가 어렵다. 신규 이민자는 이미 충분한 데이터를 가지고 있기 때문에, 선행자의 솔루션에 쉽게 잡았거나 추월 할 수 버린다. 반면 성적 역치 (대량의 데이터를 필요로하지 않는다) 낮은 안정성 한계 (데이터가 급속히 늙어된다)와 싸우고있는 기업에서 다른 기업보다 빨리 새로운 데이터를 취득했다면 데이터 모트를 구축 할 수있다.
강력한 데이터 모트의 기타 요소
AI 계 투자자는 데이터 세트는 「공개 데이터」과 「독자적인 데이터 '로 나뉜다 열변하지만 데이터 모트는 그것과는 별도로 다음의 요소가있다.
- 액세스 용이성
- 시간 - 얼마나 빨리 데이터를 수집하고 모델 살릴 것인가? 데이터에 즉시 액세스 할 수 있는지, 또는 취득과 처리에 오랜 시간이 걸리지 않는가?
- 비용 - 데이터를 입수하는데 얼마나 걸리는지. 데이터를 사용하는 사용자가 라이센스 권을 위해 돈을 지불 할 필요가 있는가? 또는 데이터 레이블에 대한 인건비를 지불 할 필요가 있는가?
- 독자성 - 같은 결과를 도출 모델을 구축 할 수 동등한 데이터가 널리 공개되어 있지 않는가? 그런 소위 자체 데이터는 "일용 데이터"(Commodity Data)이라고 불러야 할 것이다. 예를 들어, 작업 및 널리 보급되어있는 형식의 서류 (기밀 유지 계약서 나 대출 신청서 등)이나, 사람의 얼굴 사진과 같은 것이 이에 해당한다.
- 차원 성 - 데이터 세트에 다른 종류의 속성이 얼마나 포함되어 있는가? 그 대부분이 문제 해결에 도움이되는 것인지.
- 폭 - 속성의 가치가 얼마나 다방면에 걸쳐 있는가? 데이터 세트에 극단적 인 사례와 드문 예외적 인 사례가 포함되어 있는가? 데이터 또는 학습이 단 한 명의 고객으로부터 얻은 것이 아니라 다양한 고객층에서 수습 된 저축 할 수 있는가?
- 수명 - 데이터는 장기간에 걸쳐 폭넓게 사용할 수있는 것인지. 데이터에서 훈련 된 모델은 장기간 사용할 것인가? 또는 정기적 인 업데이트가 필요합니까?
- 선순환 - 성능 피드백과 예측의 정확도 같은 결과를 알고리즘의 개선을위한 입력으로 사용할 수 있을까. 시간을 거칠 때마다 성능이 마모되어 가는지.
이제 소프트웨어는 일 용품이다. 장기간 경쟁에서 우위를 유지하고자하는 기업 데이터 모트의 구축은 더욱 중요해진다. 기술계의 거대 기업이 클라우드 컴퓨팅의 고객을 확보하기 위해 AI 툴킷을 무료 공개하는 세상에서는 데이터 세트는 차별화를위한 매우 중요한 관건이된다. 정말 방위력 높은 데이터 원격 데이터를 대량으로 수집만으로는 실현하지 않는다. 최선의 데이터 원격 특정 문제 영역과 강하게 연결되어있다. 거기에서는 고객의 문제를 해결 할 때마다 다른 곳에는없는 신선한 데이터가 가치를 창출하게된다.