본문 바로가기

카테고리 없음

"AI의 정확성"에 관한 논의는 정확하게

출처 : http://jp.techcrunch.com/2018/03/13/2018-03-11-accuracy-of-accuracy/


기술 관련 뉴스를 읽고 있으면 AI가 대부분의 산업과 협력을 소비하는 것을 버린다고 생각 되어도 어쩔 수 없다. 이제 어느 기자가 숨을 헐떡하면서 인간의 지성을 위협하는 새로운 기계 학습 제품에보고하는 모습을 보지 않고 끝나는 날이 아니다. 하지만이 과도한 열정은 아무것도 언론인만큼 책임이있는 것은 아니다. 사실, 그들은 단순히 연구자 들이나 시작 창업자들의 대략적인 낙관론을 흘려 보내고있는 것만으로도 말할 수있다.

최근 몇 년 사이에 심층 학습 및 기타 기술에 대한 과대 광고가 증가함에 따라 인공 지능과 기계 학습에 대한 관심이 매우 높아지고있다. 수만 개 이상의 AI 관련 연구 논문이 매년 출판 , AngelList의 AI 시작 디렉터리에는 4000 여개의 시작이 게재되고있다.

AI가 지배하는 시대의 도래 (만약 원한다면 싱귤러 리티라고 불러도 상관 없다)에 관한 방대한 스토리에 노출되어 계속 한 결과, 미국인의 58 %가 자동화 및 인공 지능과 같은 "신기술" 일을 빼앗길 것을 걱정하고 있다는 것은 놀라운 이야기가 아니다 ( 이 조사 는 노스 이스턴 대학과 갤럽에 의해 만들어진 것이다). 그 공포는 이민 및 아웃소싱에 대해 느끼는 두려움을 크게 웃돌고있다.

그러나 진실은 훨씬 복잡한 것이다. 전문가들은 인공 지능의 '정확성'이 지나치게 과장되어 있다는 것을 서서히 깨닫기 시작했다. 또한 일반적인 출판물에서보고되는 정도의 수치는 오해의 소지가 많다. 보다 엄밀하게 데이터를 음미 해 보면 많은 AI 응용 프로그램은 우리가 믿게되어있어 많은 제한이있는 것을 알 수있다. 결국 인류는 정말 일을 AI에 양보하게 될지도 모르지만, 거기에 이르는 길은 아직도 먼 것이다.

또 다른 "재현성의 위기"

지난 10 년 정도에 걸쳐 연구자의 세계에는 "재현성 위기 (replication crisis)"라고되어 온 뜨거운 논쟁이 존재하고있다. 이것은 심리학 및 종양학 등 다양한 분야에서 그 분야의 주요 논문의 결과를 다른 연구자들이 재현 할 수없는 현상을 가리키는 말이다. 재현 실패의 수가 모든 논문의 절반 이상에 이르는 고 말했다 연구도있다.

이 위기의 원인은 헤아릴 수 없다. 연구자들은 일을 계속하기 위해서는 긍정적 인 결과가 필요한 "출판이 파멸인가 '라는 상황에 직면하고있다. 전문지는 더 많은 독자를 얻기 위해 화려한 결과를 바라고, "p 값 해킹"은 연구자들이 통계를 반죽 해 돌려 더 좋은 결과를 얻을 수 있도록하고있다.

인공 지능의 연구도 이러한 구조적 요인과 무관하지 않다. 그리고 실제로 상황은 더 나쁠지도 모른다 것이다. 왜냐하면 AI를 둘러싼 열광의 믿기 어려운 높아짐에 따라, 연구자들에게는 가장 신규성 넘치는 결과를 향하고, 더 빠르고, 더 넓고, 그 결과를 넓히려한다는 압력이 걸려 있기 때문이다.

현재, 그리고 현재 많은 AI 연구에서 증가하고있는 우려는 그 결과의 재현이 (불가능하지는 않더라도) 어려운 일이다. 하나의 과제는 많은 AI 논문에서는 기본 알고리즘을 실행하는 데 필요한 중요한 데이터가 누락 된 것이다 . 그럴 상황이 심한 경우는 연구 대상의 알고리즘의 소스 코드가 포함되어 제공하지 못하고있다. 기계 학습에 사용되는 학습 데이터는 알고리즘의 결과의 성공의 큰 부분을 차지하고있다. 데이터가 없으면 특정 알고리즘이 설명 된대로 작동하는지 여부를 판단하는 것은 거의 불가능하다.

설상가상으로 참신하고 새로운 결과를 공표하기 위해 서두른 나머지 결과가 반복 얻을 수 있음을 나타내는 데 필요한 연구의 재현성에 너무 초점이 맞고 있지 않다. 위에 링크 한 MIT Technology Review의 기사에서 인용 해 보자 : "... 몬트리올의 맥길 대학의 컴퓨터 과학자 인 Peter Henderson이 보여준 것은 트라이 & 에러로 학습하도록 설계 된 AI의 성능은 사용되고있는 코드에 대해 매우 민감한뿐만 아니라 훈련에 사용 된 난수와 「하이퍼 매개 변수 "설정 (알고리즘의 핵심은 아니지만, 얼마나 빨리 학습에 영향을주는 것)에 대해서도 매우 민감하다이다. " 즉 아주 작은 변화가 큰 차이를 만들어내는 것이다.

영양 과학의 각 연구가 언제든지 "의심의 눈으로 볼 수있다"( "be taken with a grain of salt" "소금 한 스푼과 함께 받는다"는 점에서 "의심"라는 의미)가 필요 있도록 새로운 AI 논문과 서비스도이 정도의 회의적인 태도로 취급되어야한다. 결과를 나타내는 1 개의 논문 또는 서비스만으로는 정확성을 입증 할 수 없다. 종종 이것이 의미하는 것은 특별히 선택된 데이터 세트와 특정 조건에 따라 특정 결과를 얻을 수 있다는 것이지 일반적인 입력 집합에 적용 할 수는 없다는 것 이다.

정확성을 정확하게보고

의료 평가, 문서 스캔, 그리고 테러 방지 등의 폭 넓은 분야의 문제를 AI가 잠재적으로 해결 가능한 아니냐는 크게 기대가 높아지고있다. 하지만 그 흥분은 기자와 연구원들의 정확성을 정확하게보고 할 수있는 능력을 흐리게했다.

AI를 사용하여 대장 암 (대장 암)을 검출하는 방법이 최신 기사를 보았 으면 좋겠다 . 이 기사는 "결과는 인상적이었다 얻은 정확성의 수치는 86 %였다. 또한,이 수치는 대장 용종의 병리 진단이 이미 내려져 있던 환자에서 얻은 것 있다 "고 적혀있다. 기사는 원래 연구의 주요 결과 단락의 인용도 포함되어있다.

또는 언어 번역 할 Google의 기계 학습 서비스에 대한 기사도 보았 으면 좋겠다 . "경우에 따라서는 GNMT 시스템은 인간 수준의 번역 정확도에 접근하고 있으며, Google은 말한다. 그러나 이러한 높은 정밀도는 영어에서 스페인어, 프랑스어 등 관련 언어 사이의 번역에 한정되어있다" .

이들은 무작위로 선정 된 기사이지만, 세상에는 최신의 AI의 발전을 기대하면서보고 정확성을 나타내는 하나의 숫자 만 나 "인간 수준"이라고 비유 말만하고 것을 더욱 채택 수백 기사가 존재하고있는 것이다. AI 프로그램의 평가가 그렇게 간단하면 아무도 고생하지!

예를 들어 피부에있는 첩자가 암인지 여부를 판단하고 싶다고하자. 이것은 2 분류 문제로 알려진 것이다. 목표는 환자들을 암이있는 사람과 그렇지 않은 사람의 두 그룹으로 나눌 수있다. 완벽한 정확성을 가진 완전한 알고리즘이라면 암을 갖는 모든 사람을 암으로 확인하고 암을 가지지 않은 모든 사람을 암을 가지고 있지 않다고 특정한다. 즉, 결과는 위양성과 위음성은 포함되지 않은 것이다.

이 이야기는 단순히 보이지만 문제는 암과 같은 상태는 인간뿐만 아니라 컴퓨터에게도 완벽한 정확도로 식별하는 것은 본질적으로 불가능하다는 것이다. 모든 의료 진단 테스트는 일반적으로 어느 정도 감도를 높이거나 (얼마나 많은 확실성을 올바르게 식별 할 수 있는지)과 어느 정도 특이 적인지 (얼마나 많은 네거티브를 올바르게 식별 할 수 있는지) 사이 절충이 필요하다. 암 환자에 대한 오진의 위험 (사망에이를 가능성이있다)을 고려하여 검사는 일반적 특이도를 낮추고 감도를 올리도록 디자인되어있다 (즉, 비록 위양성의 가능성이 늘어도 더 많은 확실성을 찾을 것이다).

제품 디자이너는 이러한 경쟁 우선 순위의 균형을하는 방법을 선택할 수있다. 위양성과 위음성의 비용에 따라 동일한 알고리즘을 다른 방식으로 구현 될 수있다. 만약 연구 논문 또는 서비스가 이러한 장단점에 대해 논하고 있지 않다면, 그 정확성은 공정하게 제시되지 않게된다.

더 중요한 것은 '정확성을 나타내는 단일 값 "이라는 표현은 잘못된 표현이라는 것이다. 정확도는 양성 환자가 얼마나 제대로 양성으로 판정 된 음성 환자가 얼마나 음성으로 판정 된에 의존하고있다. 그러나 어떤 숫자를 늘려 다른 숫자를 감소시키고, 그 반대하면서 결과적으로 동일한 정확성의 숫자를 제시하는 것도 가능하다. 즉, 동일한 정확성의 숫자를 주창하면서도있는 테스트는 양성 환자의 검출에 주력하고 있으며, 또 다른 테스트를 네거티브 환자를 결과에서 제거하는데 주력하고 있다고 주장 할 수있다. 그들은 매우 다른 목표이며, 두 가지 목표에 잘 조정되는 알고리즘도있다.

이것이 하나의 값을 취급하는 어려움이다. 비유는 더 나쁘다. "인간 수준"이라는 말은 아무 말도하지 않았다. 원래 인간에 대한 좋은 오류율의 데이터가있는 것은 거의 없다. 그리고 만약 그러한 데이터가 있더라도 인간에 의해 만들어진 오류를 기계 학습에 의해 만들어진 오류와 비교하는 것은 쉬운 일이 아니다.

이것은 가장 간단한 분류 문제의 복잡성의 일부에 불과하다. AI의 품질을 평가하는 미묘한 차이에 대해 이야기에는 최소한 1 권의 책이 필요할 것이다. 그리고 실제로 일부 연구자들은 이러한 시스템의 평가에 평생을 보낼 것은 틀림 없다.

인공 지능에서 박사 학위를 취득하는 것은 누구나 할 수있는 것은 아니지만, 이러한 새로운 기술의 소비자로서 우리 각자가 비판적인 시선이 밝은 주장을 위해 엄격하게 평가 해 나갈 의무 가있는 것이다. 그것이 재현성 또는 정확성에 관한 주장하더라도, 우리가 의지하는 많은 AI 기술은 아직 신생아에서 성숙하기 위해서는 아직도 많은 시간을 필요로하는 것을 잊지 않는 것이 중요하다 .