지난 5월 23일 중국의 커제 9단(왼쪽)이 구글의 인공지능 알파고 마스터와 대국하고 있다. 커제 9단은 알파고와 3번 맞붙어 모두 졌다. ⓒphoto 뉴시스
지난 5월 23일 중국의 커제 9단(왼쪽)이 구글의 인공지능 알파고 마스터와 대국하고 있다. 커제 9단은 알파고와 3번 맞붙어 모두 졌다. ⓒphoto 뉴시스

이세돌과 커제를 꺾은 알파고보다 더 센 놈이 왔다. 알파고 리와 알파고 마스터에 이은 알파고 제로(Zero)다.

알파고 개발사인 구글 딥마인드는 알파고의 버전마다 해당 알파고의 특성을 나타내는 이름을 붙인다. 알파고 리(Lee)는 이세돌 9단을 이겼기 때문에 붙여진 이름이다. 인류 최강의 바둑 고수 중국의 커제(柯潔) 9단을 이긴 알파고 마스터(Master)는 ‘바둑을 마스터했다’는 의미에서 이름 붙여졌다. 그렇다면 알파고 마스터보다 더 강한 알파고 제로에 붙은 제로의 의미는 무엇일까.

알파고 제로에 붙은 제로(0)는 인간의 지식으로부터 전혀 도움을 받지 않았다는 점에서 딴 명칭이다. 알파고 제로는 인간 고수들이 둔 기보 16만건을 제공받은 이전 알파고들과 달리 인간 기보의 도움을 전혀 받지 않았다. 구글 딥마인드가 지난 10월 19일 네이처 학술지에 발표한 ‘인간 지식 없이 바둑 정복하기(Mastering the Game of Go without Human Knowledge)’ 논문에 따르면, 알파고 제로는 오직 강화학습의 방법론에만 의존한다. 바둑 게임의 규칙을 제외하면 어떤 인간의 자료나 조언, 지식의 도움을 받지 않았다. 딥마인드는 스스로와의 대국을 시작하기 전 시점의 알파고 제로를 ‘빈 서판(tabula rasa)’에 비유했다. 완전한 백지 상태라는 의미다. 제로에 적용된 것은 오직 강화학습의 방법론이다. 강화학습은 이전 알파고 리와 마스터에도 모두 적용됐지만 이전 버전들은 바둑 규칙 이외에도 인간 고수들의 기보를 제공받았었다.

강화학습의 방법론은 기본적으로 심리학계의 이론인 행동심리학에서 기인한다. 개가 특정 행동을 하면 보상을 하는 식으로 특정 행동을 유도하는 것이다. 알파고 제로는 바둑의 규칙 외에는 아무런 지식도 제공받지 않은 채 스스로와의 대국만을 반복했고 승리했을 때는 보상을 제공받았다. 알파고 제로에게 주어진 보상은 승리 자체다. 딥마인드사 연구진에 따르면 알파고 제로는 학습을 시작한 3일(72시간) 만에 이세돌과의 대국에 사용된 알파고 리를 따라잡았다. 학습 21일째에는 커제를 이긴 알파고 마스터를 따라잡았다.

알파고 제로는 인간과 대국을 할 계획이 없다. 더 이상 인간과의 대국이 의미가 없기 때문이다. 바둑에서는 ELO점수로 랭킹을 매긴다. 10월 24일 기준 세계 1위는 ELO점수 3670점인 커제 9단이다. 2위인 박정환 9단과는 42점 차다. 지난해 3월 알파고 리가 이세돌과 대결한 직후 점수는 3586점이었다.

알파고 마스터부터는 단위가 다르다. 알파고 마스터의 ELO점수는 4858점이다. 바둑에서는 ELO점수로 800점 차가 나면 승률 100%로 본다. 알파고 제로의 ELO점수는 알파고 마스터보다도 300점 이상이 높은 5185점이다. 인간 고수들 간 점수 격차가 수십 점 내외인 것을 감안하면 따라잡을 수 없는 격차다.

강화학습만을 통해 인공지능이 더욱 강력해졌다는 것은 어떤 의미를 가질까. 이와 관련해 김진형 지능정보기술연구원(AIRI) 연구원장은 기자와 만나 “사실 알파고 마스터를 만들 때 이미 학자들은 인간의 도움이 없는 버전이 나올 것을 예상하고 있었고, 알파고 제로는 다만 그것을 실제로 증명한 것일 뿐”이라고 말했다.

알파고 제로에서 눈에 띄는 특이점은 인간 지식을 제공받은 알파고가 초반에는 더 빨리 발전했지만 나중으로 갈수록 발전 속도가 제로에 뒤처졌다는 점이다. 이를 두고는 다양한 분석이 제기된다. 김진형 원장은 “알파고 제로는 이전 알파고들과 달리 정책망과 신경망을 하나로 합쳤기 때문에 연산속도와 효율성이 훨씬 뛰어나다”며 계산의 효율성을 알파고 제로의 강점으로 꼽았다.

반면 이정원 한국전자통신연구원(ETRI) 선임연구원은 “세 살 버릇 여든까지 간다는 말이 인공지능에도 적용된다”며 “인간처럼 둔다는 것이 알파고에게는 미덕이 아니다”라고 했다. 초반에 학습 속도를 높이기 위해 제공한 인간의 기보가 일정 수준에 도달한 후에는 알파고에게 오히려 방해가 됐다는 설명이다.

알파고는 바둑계에서 은퇴했다. 딥마인드사는 알파고 마스터가 커제 9단을 꺾은 지난 5월 “바둑과 관련한 인공지능을 더 이상 개발하지 않겠다”고 선언했다. 이번에 공개된 알파고 제로 역시 연구진이 논문을 네이처에 제출한 것은 지난 4월이다. 논문 승인이 늦어지면서 결과가 10월에 공개됐을 뿐이다.

부분적으로 관찰 가능한 분야에선 한계

딥마인드사의 다음 목표는 어느 분야일까. 대표적인 것은 자율주행이다. 보행자, 다른 자동차 등 장애물을 인식해 피하면 보상을 지급하는 식으로 강화학습의 방법론을 적용하는 것이다. 이미 일부 기업이 개발해 공개한 경우를 보면 장애물을 인식하고 피하는 인공지능은 상당한 수준에 도달해 있다. 구글 데이터센터에도 이미 인공신경망을 이용한 관리 시스템이 적용됐다.

하지만 아직까지 인공지능이 갈 길이 멀다는 의견도 있다. 대표 사례가 구글 딥마인드사가 다음 타깃으로 지목한 미국 블리자드사의 컴퓨터 게임 ‘스타크래프트’다. 바둑에서 나올 수 있는 경우의 수는 10의 170제곱으로 우주의 원자 수보다 많다고 흔히 알려져 있지만, 인공지능을 개발하는 측면에서는 상대의 패가 모두 공개되어 있다는 점에서 쉽다는 것이 전문가들의 설명이다. 반면 포커나 스타크래프트 등 플레이어가 처한 상황에서 볼 수 있는 영역이 한정되어 있는 상황의 경우 인공지능이 택할 수 있는 판단에도 제약이 가해진다. 이런 상황의 경우 결국 확률 게임을 따라야 하고 완벽한 승리를 장담할 수 없다는 것이 학자들의 의견이다.

일각에서는 인공지능의 발전 속도를 두려워한 나머지 “인공지능에 감성을 부여해야 한다”는 주장을 제기한다. 인간이 인공지능이 만들어낸 결과물을 설명하지 못하는 데에서 기인한, 미지의 영역에 대한 공포심이 초래한 결과다. 김 원장은 이에 대해 “인공지능에 감성을 넣어야 한다는 주장은 인공지능이 아니라 생명체와 관련된 영역”이라며 “인공지능은 계산이 빠르고 정확한 기계일 뿐이니 두려워할 필요가 없다”고 말했다. 인공지능과 생명체를 착각해서는 안 된다는 설명이다. 다음은 김기응 KAIST 전산학부 교수의 말이다. “알파고는 바둑에 대한 인공지능일 뿐이고, 다른 분야에서 인공지능은 아직 갈 길이 멀다.”

키워드

#뉴스 인 뉴스
배용진 기자
저작권자 © 주간조선 무단전재 및 재배포 금지