오늘날 우리는 소위 스마트 장치에 둘러싸여 있습니다. Alexa는 요청 시 음악을 재생합니다. Siri는 어젯밤 야구 경기에서 누가 이겼는지 또는 오늘 비가 올 가능성이 있는지 알려줍니다. 하지만 이 기계들이 정말 똑똑할까요? 어쨌든 컴퓨터가 지능적이라는 것은 무엇을 의미할까요?
가상 비서는 새로운 것일 수 있지만 머신 인텔리전스에 대한 질문은 그렇지 않습니다. 1950년에 영국의 수학자이자 컴퓨터 과학자인 앨런 튜링(Alan Turing)은 기계가 진정으로 지능적인지 테스트하는 방법을 고안했습니다. 그는 그것을 “모방 게임”이라고 불렀습니다. 오늘날 우리는 그것을 튜링 테스트라고 부릅니다.
게임은 다음과 같이 진행됩니다. 누군가 — 이 사람을 플레이어 A라고 부르겠습니다 — 방에 홀로 앉아 다른 두 플레이어에게 메시지를 입력합니다. B와 C라고 합시다. 그 플레이어 중 한 명은 인간이고 다른 한 명은 컴퓨터입니다. 플레이어 A의 임무는 B 또는 C가 인간인지 결정하는 것입니다.
Turing은 Mind 저널의 1950년 논문에서 자신의 게임 아이디어를 데뷔했습니다. 그는 다음과 같은 말로 논문을 시작했습니다. “나는 ‘기계가 생각할 수 있는가?’라는 질문을 고려할 것을 제안합니다.”
지금 우리가 알고 있는 컴퓨터가 아직 존재하지 않았다는 점을 고려할 때 대담한 질문이었습니다. 그러나 Turing은 1936년부터 사람들이 소프트웨어로 프로그래밍할 수 있는 최초의 컴퓨터에 대한 아이디어를 연구해 왔습니다. 이것은 올바른 지시가 주어진다면 무엇이든 할 수 있는 컴퓨터가 될 것입니다.
결코 만들어지지는 않았지만 Turing의 디자인은 오늘날의 컴퓨터로 직접 이어졌습니다. 그리고 Turing은 그러한 기계가 언젠가는 진정으로 생각할 수 있을 만큼 정교해질 것이라고 믿었습니다.
코드에서 코딩으로
Alan Turing은 1912년부터 1954년까지 살았던 영국의 수학자이자 컴퓨터 과학자였습니다. 1936년에 그는 최초의 프로그래밍 가능한 컴퓨터에 대한 기본 아이디어를 내놓았습니다. 즉, 적절한 지시가 주어지면 요구하는 모든 것을 할 수 있는 컴퓨터입니다. (오늘날 우리는 이 명령어 패키지를 소프트웨어라고 부릅니다.)
튜링의 연구는 제2차 세계대전 중에 영국 정부가 그에게 도움을 요청하면서 중단되었습니다. 나치 지도자들은 군 사령관에게 보낸 명령의 의미를 숨기기 위해 에니그마 코드라는 암호를 사용했습니다. 이 코드는 해독하기가 매우 어려웠지만 Turing과 그의 팀은 해냈습니다. 이것은 영국과 미국을 포함한 동맹국이 전쟁에서 승리하는 데 도움이 되었습니다.
전쟁이 끝난 후 Turing은 컴퓨터와 AI로 관심을 돌렸습니다. 그는 프로그래밍 가능한 컴퓨터의 설계를 시작했습니다. 기계는 만들어지지 않았습니다. 그러나 오른쪽에 보이는 1950년 영국 컴퓨터는 터닝의 디자인을 기반으로 했습니다.

그러나 Turing은 실제로 생각하는 것으로 간주되는 것을 보여주는 것이 어렵다는 것도 알고 있었습니다. 그것이 그렇게 까다로운 이유는 우리가 사람들이 어떻게 생각하는지조차 이해하지 못하기 때문이라고 Ayanna Howard는 말합니다. 콜럼버스에 있는 오하이오 주립 대학의 로봇 공학자인 그녀는 로봇과 인간이 상호 작용하는 방식을 연구합니다.
튜링의 모방 게임은 그 문제를 해결하는 영리한 방법이었습니다. 만약 컴퓨터가 마치 생각하는 것처럼 행동한다면, 그가 결정했다면, 당신은 그렇게 생각할 수 있습니다. 가정하기에는 이상하게 들릴 수 있습니다. 그러나 우리는 사람들에게도 똑같이 합니다. 우리는 그들의 머릿속에서 무슨 일이 일어나고 있는지 알 방법이 없습니다.
사람들이 생각하는 것 같으면 우리는 그렇다고 가정합니다. Turing은 컴퓨터를 판단할 때 동일한 접근 방식을 사용할 것을 제안했습니다. 따라서: 튜링 테스트. 컴퓨터가 누군가를 속여 자신이 인간이라고 믿게 할 수 있다면 컴퓨터는 인간처럼 생각하는 것이 틀림없습니다.
컴퓨터가 게임을 하는 횟수의 30%에서 자신이 인간임을 사람들에게 납득시킬 수 있다면 테스트를 통과한 것입니다. 튜링은 2000년이 되면 기계가 이것을 해낼 수 있을 것이라고 생각했습니다. 그 이후로 수십 년 동안 많은 기계가 도전에 나섰습니다. 그러나 그들의 결과는 항상 의심스러웠다. 그리고 일부 연구자들은 이제 튜링 테스트가 기계 지능의 유용한 척도인지에 대해 의문을 제기합니다.

챗봇이 시험을 치른다
Turing이 그의 모방 게임을 제안했을 때 그것은 단지 가상 테스트 또는 사고 실험이었습니다. 그것을 재생할 수있는 컴퓨터가 없었습니다. 그러나 인공 지능, 즉 AI는 그 이후로 먼 길을 왔습니다.
1960년대 중반 Joseph Weizenbaum이라는 연구원이 ELIZA라는 챗봇을 만들었습니다. 그는 매우 간단한 일련의 규칙을 따르도록 프로그래밍했습니다.
ELIZA가 실행할 수 있는 프로그램 중 하나는 그녀가 환자와 이야기하는 심리학자처럼 행동하도록 만들었습니다. 예를 들어 ELIZA에게 “수학 시험에 떨어질까 봐 걱정됩니다.”라고 말하면 ELIZA는 “수학 시험에 떨어질 것 같나요?”라고 대답할 수 있습니다. 그런 다음 “예, 그럴 것 같아요”라고 말하면 ELIZA는 “왜 그렇게 말합니까?”라고 말할 수 있습니다. ELIZA는 재고 답장과 사람들이 말한 내용을 다시 표현한 것 이상을 말한 적이 없습니다.
ELIZA는 튜링 테스트를 한 적이 없습니다. 하지만 통과했을 가능성이 있습니다. 그것과 상호 작용한 많은 사람들은 실제 전문가로부터 응답을 받고 있다고 생각했습니다. Weizenbaum은 ELIZA가 “그녀”가 어떻게 작동하는지 설명한 후에도 많은 사람들이 ELIZA가 똑똑하다고 생각한다는 사실에 겁을 먹었습니다.
2014년 영국에서 열린 튜링 테스트 대회에서 Eugene Goostman이라는 AI 챗봇 프로그램이 30명의 인간 심사위원과 5분 동안 대화를 나누었습니다. 그것은 그들 중 10명에게 자신이 인간임을 확신시키는 데 성공했습니다. 튜링 테스트를 통과하기에 충분했던 것 같습니다. 그러나 Eugene은 몇 가지 트릭을 사용했습니다. 실제로 일부 전문가들은 봇이 속임수를 썼다고 말합니다.
유진은 자신이 13세 우크라이나 소년이라고 주장했다. 대화는 영어로 이루어졌습니다. 유진의 젊음과 영어에 대한 익숙함의 부족은 그렇지 않았다면 의심스러워 보일 수 있는 몇 가지 일들을 설명할 수 있었습니다. 한 심사위원이 유진에게 어떤 음악을 좋아하는지 물었을 때 챗봇은 “간단히 말해서 I HATE Britnie Spears라고만 하겠습니다. 다른 음악은 그녀에 비해 괜찮습니다.” “Britney”의 철자를 잘못 입력하고 “to be short”라는 약간 이상한 문구를 사용하는 것은 의심을 불러일으키지 않았습니다. 결국 유진의 모국어는 영어가 아니었습니다. 그리고 브리트니 스피어스에 대한 그의 말은 십대 소년이 말하는 것처럼 들렸습니다.
2018년 Google은 새로운 개인 비서 AI 프로그램인 Google Duplex를 발표했습니다. 튜링 테스트 경쟁에 참여하지 않았습니다. 그래도 설득력이 있었다. Google은 AI가 미용실에 전화를 걸어 약속을 잡도록 함으로써 이 기술의 힘을 보여주었습니다. 약속을 잡은 안내원은 그녀가 컴퓨터와 이야기하고 있다는 것을 깨닫지 못한 것 같습니다.
또 한 번은 Duplex가 식당에 전화를 걸어 예약을 했습니다. 다시 말하지만, 전화를 받은 사람은 이상한 점을 눈치채지 못한 것 같습니다. 이것은 짧은 교환이었습니다. 그리고 실제 튜링 테스트와 달리 전화를 받은 사람들은 전화를 건 사람이 인간인지 여부를 의도적으로 평가하려고 하지 않았습니다.
그렇다면 그러한 컴퓨터 프로그램이 튜링 테스트를 통과했습니까? 아마도 그렇지 않을 것이라고 대부분의 과학자들은 말합니다.
저렴한 트릭
튜링 테스트는 여러 세대의 AI 연구자들에게 생각할 거리를 제공했습니다. 그러나 그것은 또한 많은 비판을 불러 일으켰습니다.
John Laird는 앤아버에 있는 University of Michigan에서 6월에 은퇴한 컴퓨터 과학자입니다. 작년에 그는 현재 일하고 있는 앤아버에 통합 인지 센터를 설립했습니다. 경력의 대부분 동안 그는 다양한 유형의 문제를 해결할 수 있는 AI를 만드는 데 노력했습니다. 과학자들은 이것을 “일반 AI”라고 부릅니다.
Laird는 Turing 테스트를 통과하려는 프로그램이 가능한 만큼 똑똑하게 작동하지 않는다고 말합니다. 더 인간적으로 보이기 위해 대신 철자나 수학 오류와 같은 실수를 시도합니다. 그것은 컴퓨터가 누군가에게 자신이 인간임을 확신시키는 데 도움이 될 수 있습니다. 그러나 AI 과학자의 목표로는 쓸모가 없다고 그는 말합니다. 과학자가 더 똑똑한 기계를 만드는 데 도움이 되지 않기 때문입니다.
Hector Levesque는 유사한 이유로 튜링 테스트를 비판했습니다. Levesque는 캐나다 온타리오의 토론토 대학교 AI 연구원입니다. 2014년 논문에서 그는 튜링 테스트의 설계로 인해 프로그래머가 속임수에 능숙하지만 유용한 방식으로 반드시 지능적이지는 않은 AI를 만들 수 있다고 주장했습니다. 여기에서 그는 ELIZA와 Eugene Goostman이 사용하는 것과 같은 기술을 설명하기 위해 “저렴한 속임수”라는 용어를 사용했습니다.
대체로 Turing 테스트는 AI에 대해 생각하는 데 좋습니다. 그러나 그는 AI 과학자들에게 별로 좋지 않다고 덧붙였다. “오늘날 어떤 진지한 AI 연구원도 튜링 테스트를 통과하려고 하지 않습니다.”라고 그는 말합니다.
그렇더라도 일부 최신 AI 프로그램은 해당 테스트를 통과할 수 있습니다.
빈칸 채우기
대규모 언어 모델 또는 LLM은 AI의 한 유형입니다. 연구원들은 엄청난 양의 데이터를 제공하여 이러한 컴퓨터 프로그램이 언어를 사용하도록 훈련시킵니다. 이러한 데이터는 책, 신문 및 블로그의 기사 또는 Twitter 및 Reddit과 같은 소셜 미디어 사이트에서 가져옵니다.
그들의 훈련은 다음과 같이 진행됩니다. 연구원들은 단어가 빠진 문장을 컴퓨터에 제공합니다. 컴퓨터는 빠진 단어를 추측해야 합니다. 처음에 컴퓨터는 꽤 형편없는 일을 합니다. “타코는 인기 있는 … 스케이트보드입니다.” 그러나 시행 착오를 통해 컴퓨터는 요령을 얻습니다. 곧 “타코는 인기 있는 음식입니다.”와 같이 빈칸을 채울 수 있습니다. 결국 “타코는 멕시코와 미국에서 인기 있는 음식입니다.”라고 생각할 수 있습니다.
일단 훈련되면 그러한 프로그램은 인간처럼 언어를 사용할 수 있습니다. 블로그 게시물을 작성할 수 있습니다. 뉴스 기사를 요약할 수 있습니다. 일부는 컴퓨터 코드를 작성하는 법을 배우기도 했습니다.
아마 비슷한 기술과 상호 작용했을 것입니다. 문자 메시지를 보낼 때 휴대전화에서 다음 단어를 제안할 수 있습니다. 이것은 자동 완성이라는 기능입니다. 그러나 LLM은 자동 완성보다 훨씬 더 강력합니다. Brian Christian은 “스테로이드 자동 완성”과 같다고 말합니다.
Christian은 컴퓨터 과학과 철학을 공부했습니다. 그는 이제 기술에 관한 책을 씁니다. 그는 대규모 언어 모델이 적어도 비공식적으로 이미 튜링 테스트를 통과했을 수 있다고 생각합니다. “많은 사람들이 이러한 LLM 중 하나와의 텍스트 교환과 임의의 낯선 사람과의 텍스트 교환을 구분하기 어려울 것입니다.”라고 그는 말합니다.
Blaise Agüera y Arcas는 워싱턴주 시애틀에 있는 Google에서 AI를 사용하는 기술을 설계하고 있습니다. 5월 Daedalus의 논문에서 그는 LLM 프로그램인 LaMDA와 나눈 대화를 설명합니다. 예를 들어, 그는 LaMDA에게 후각이 있는지 물었습니다. 프로그램은 그렇다고 응답했습니다. 그런 다음 LaMDA는 그에게 가장 좋아하는 냄새는 봄비와 비가 내린 사막이라고 말했습니다.
물론 Agüera y Arcas는 그가 AI와 채팅하고 있다는 것을 알고 있었습니다. 하지만 그렇지 않았다면 그는 속았을지도 모릅니다.
우리 자신에 대해 배우기
기계가 진정으로 튜링 테스트를 통과했는지 여부를 말하기는 어렵습니다. Laird와 다른 사람들이 주장하듯이 테스트는 어쨌든 큰 의미가 없을 수 있습니다. 그럼에도 불구하고 Turing과 그의 테스트는 과학자와 대중이 지적이라는 것이 무엇을 의미하는지, 그리고 인간이 된다는 것이 무엇을 의미하는지 생각하게 했습니다.
2009년 Christian은 튜링 테스트 대회에 참가했습니다. 그는 그의 저서 The Most Human Human에서 그것에 대해 썼습니다. Christian은 자신이 컴퓨터가 아니라고 판사를 설득하려는 사람 중 한 명이었습니다. 그는 자신이 진정한 인간임을 다른 사람에게 납득시키려는 이상한 느낌이었다고 말했습니다. 그 경험은 컴퓨터 과학에 관한 것에서 시작되었다고 그는 말합니다. 그러나 그것은 우리가 다른 사람들과 어떻게 연결되는지에 관한 것이 되었습니다. “나는 AI에 대해 배웠던 것만큼 인간 커뮤니케이션에 대해 많이 배웠습니다.”라고 그는 말합니다.
AI 연구자들이 직면한 또 다른 주요 질문: 기계를 인간과 유사하게 만들면 어떤 영향이 있습니까? 사람들에게는 편견이 있습니다. 따라서 사람들이 기계 학습 프로그램을 구축할 때 편견을 AI에 전달할 수 있습니다.
Anqi Wu는 “모델을 설계할 때 데이터로 모델을 교육해야 한다는 까다로운 부분이 있습니다.”라고 말합니다. “그 데이터는 어디에서 오는 거죠?” Wu는 애틀랜타의 Georgia Tech University에서 기계 학습을 연구하는 신경과학자입니다. LLM에 입력되는 막대한 양의 데이터는 책, 웹사이트 등 인간 커뮤니케이션에서 가져옵니다. 이러한 데이터는 AI에게 세상에 대해 많은 것을 가르쳐줍니다. 그들은 또한 AI에게 우리의 편견을 가르칩니다.
어떤 경우에는 AI 연구자들이 단어로 일종의 수학을 할 수 있는 컴퓨터 프로그램을 만들었습니다. 예를 들어 “독일 + 자본”이라는 문이 주어졌을 때 프로그램은 독일의 수도인 “베를린”을 반환했습니다. “베를린 빼기 독일 더하기 일본”이 주어졌을 때 프로그램은 일본의 수도인 “도쿄”와 함께 돌아왔다. 이것은 흥미로웠다. 그러나 연구원들이 “의사 빼기 남자”를 입력하면 컴퓨터는 “간호사”를 반환했습니다. 그리고 “컴퓨터 프로그래머에서 사람을 뺀 값”을 주면 프로그램은 “주부”라고 대답했습니다. 컴퓨터는 남성과 여성이 수행하는 작업 유형에 대한 일부 편견을 분명히 포착했습니다.
AI가 편향되지 않도록 훈련하는 방법을 알아내는 것은 AI를 향상시키는 만큼 인류를 향상시킬 수 있습니다. 웹 사이트, 게시물 및 기사에서 학습하는 AI는 우리가 하는 것처럼 들릴 것입니다. 편향되지 않도록 AI를 훈련하려면 먼저 자신의 편향을 인식해야 합니다. 그것은 우리가 좀 더 편향되지 않는 법을 배우는 데 도움이 될 수 있습니다.
어쩌면 그것이 튜링 테스트에서 정말 중요한 것일 수도 있습니다. AI가 우리처럼 보이는지 자세히 살펴봄으로써 좋든 나쁘든 우리 자신을 봅니다.