ⓒphoto 최준석 선임기자
ⓒphoto 최준석 선임기자

한국전자통신연구원(ETRI) 박종열(45) 박사는 ‘시각 인공지능’ 연구자라고 ETRI 홍보실은 알려줬다. ‘시각 인공지능’이라고 하면 로봇 눈을 개발하거나, 도로의 자율주행자동차가 차량이나 길거리 사람 등을 잘 알아보고 피할 때 필요한 기술이겠다는 생각이 떠올랐다. 홍보실은 박종열 박사의 연구 관련 자료가 있는 인터넷 링크를 내게 알려줬다. 링크를 따라가 사이트를 열어보니, ‘ETRI, 쓰레기 투기 단속에 AI 적용한다’라는 제목의 2018년 11월 20일자 보도자료가 나왔다.

보도자료에 따르면, ETRI가 개발한 시각지능 ‘딥뷰(Deep View)’는 사람과 사물을 알아보고 행동을 인식한다고 했다. 딥러닝(Deep Learning)이라는 인공지능 기술을 근거로 기술력을 쌓은 결과, 박종열 박사팀은 사람의 관절 움직임을 보고 행인이 물건을 내려놓거나 던지는 행동을 잡아낼 수 있게 되었다. 이 기술을 토대로 세종시와 서울 은평구에서 시범사업에 들어갔다. 이 두 지역에 설치된 일부 CCTV는 불법 쓰레기 투기를 보면 현장에서 즉각 ‘찰칵’ 소리를 내며 “사진이 촬영되었습니다. 투기물을 가져가지 않으면 관련 법에 따라 처벌받게 됩니다”라는 경고 메시지를 방송한다. 놀라운 내용이 아닐 수 없다.

또 다른 보도자료는 그의 시각 인공지능 연구 수준이 세계적임을 보여줬다. ‘국제영상인식대회 세계 2, 3위 쾌거/ETRI, 이미지넷 2017에서 기술력 입증’이라는 제목의 2017년 7월 27일자 자료였다.

지난해 11월 23일 대전 대덕연구개발특구의 ETRI에서 박종열 박사를 만났다. 그의 명함에는 ‘ETRI 소프트웨어콘텐츠연구소 지능정보연구본부 시각지능연구그룹 그룹장’이라고 써 있었다. 박 박사는 “시각 지능(vision intelligence)이란 컴퓨터 비전(vision) 분야에서도 시맨틱(의미론적)을 이해하는 기술이 들어간 걸 가리킨다”고 말했다. 그에 따르면, 컴퓨터 비전 분야에는 기하학(geometry) 정보를 이용하는 분야가 있다. 수학적으로 물체가 어디에 있는지를 찾아내는 일을 뜻한다. 이미지나 영상 속 사물을 3D로 모델링해서 이게 어떤 형상인지를 알아내려는 분야도 있다. 3D비전은 실제 사물을 놓고 사물들이 거리가 얼마나 떨어져 있는지 거리감을 본다. 서울 홍릉에 있는 KIST는 얼굴 인식과 로봇 비전을 잘하고, 서울대는 비디오 튜링 테스트(video turing test·인간 수준으로 비디오를 이해하는 지능을 갖춘 기술 개발을 목적으로 한다) 연구를 한다고 했다. 박종열 박사는 “에트리의 우리 팀이 하고 있는 건 2D영상 분석이다. 평면이다. 찍힌 사진과 이미지를 보고, 이 이미지가 무엇인지를 이해하려는 작업을 한다. 사람 눈도 사진과 동영상을 보고 그게 무슨 장면인지 알아낸다. 그 수준으로 기계가 해내는 게 목표”라고 말했다.

과거에는 사진 이미지를 보면 특정 패턴을 찾았다. 컵이나 자전거, 사람 등 한두 개의 물건을 알아봤다. 하지만 박종열 박사가 개발한 시각 인공지능 ‘딥뷰’ 엔진은 이미지 속에 있는 모든 물건을 찾아낸다는 식으로 접근한다. 박 박사가 보여주는 사진 자료를 보니, 도로에 사람들이 걸어가고 있고, 딥뷰는 사진 속에 있는 사람과 자전거 등에 사각형 박스를 많이 쳐놓았다. 박스가 쳐진 건 딥뷰가 사물의 존재를 알아본다는 것이다. 박 박사는 이를 ‘명사’라고 표현했다. ‘명사’란 사물 검출 능력을 가리킨다. ‘동사’도 딥뷰는 알아본다고 했다. ‘타다’ ‘걷는다’ ‘넘어지다’와 같은 동사는 사물이나 사람의 움직임을 잡아내는 능력이다. 자전거가 있다는 것만 알아내는 게 아니라 자전거가 서 있는지, 움직이는지, 넘어지는지와 같은 여러 가지 상황을 파악하는 게 ‘동사’ 능력이다. 그리고 ‘명사’와 ‘동사’를 연결시켜 그 관계를 이해하고 그 장면의 의미가 무엇인지를 이해하는 게 ‘딥뷰’ 과제의 목표다. 기존의 패턴인식 방식은 사물(‘명사’) 이해와 행동(‘동사’) 이해를 했으나 그 연관 관계는 보지 못했다. 자전거를 타다가 넘어진 건 알았으나 왜 넘어졌는지를 몰랐다.

“이미지와 동영상으로 된 빅데이터가 쏟아지고 있다. 빅데이터를 활용하기 위해 시각 인공지능 기술이 요구된다. 우리는 빅데이터 영상과 이미지를 실시간으로 처리해 내용을 분석하는 플랫폼을 만들고 있다. 영상을 분석해 시각지식언어로 기술해서 저장한다. 가령 이렇게 활용할 수 있다. 누군가 ‘그때 자전거를 길거리에서 타는 영상 있었잖아?’라며 찾아낼 걸 요구하면 검색해서 확인할 수 있다. 이는 방송국에서 활용할 수 있는 기술이다. 이 밖에도 많은 분야에서 응용할 수 있다.”

왼쪽 사진은 머신러닝 방식으로, 오른쪽 사진은 딥러닝 방식으로 학습한 인공지능이 같은 사진을 검색한 결과다. 딥러닝 방식이 사물 검출 능력이 뛰어난 걸 알 수 있다. ⓒphoto ETRI
왼쪽 사진은 머신러닝 방식으로, 오른쪽 사진은 딥러닝 방식으로 학습한 인공지능이 같은 사진을 검색한 결과다. 딥러닝 방식이 사물 검출 능력이 뛰어난 걸 알 수 있다. ⓒphoto ETRI

딥러닝으로 신경망 네트워크

박종열 박사가 개발 중인 시각 인공지능은 과학기술정보통신부 과제이기도 하다. ‘실시간 대규모 영상 데이터 이해 및 예측을 위한 고성능 비주얼 디스커버리 플랫폼 개발’이란 긴 이름을 갖고 있다. 총 480억원이 들어가는 큰 과제이며, 박종열 박사가 총괄책임자다. 연구는 2014년에 시작됐고 2024년까지 3단계로 진행된다.

“시각 인공지능을 부분부분 연구하던 것에서 벗어나, 대규모로 만들어 하나의 플랫폼화 하고자 하는 게 사업 목표이다. 딥러닝이라는 새로운 기술로 신경망 네트워크를 만드는 거다. 신경망 네트워크를 만들려면 개발할 게 많다. 2017년까지 1단계 사업 기간에는 요소 기술을 개발했다. 사물인식 네트워크(ObjectNet)와 행동인식 네트워크(ActionNet)가 그 결과물이다. 2017년 이미지넷 대회는 시각 인공지능들의 ‘명사’ 부분 능력을 겨루는 자리였다. 우리가 4년간 준비해서 2위라는 성과를 올렸다. 과제 2단계에 들어선 2018년부터는 실생활과 접목시키는 작업을 하고 있다. 쓰레기 투기를 탐지할 수 있는 응용기술을 내놓은 게 그 일환이다.”

시각 인공지능 과제를 시작할 때는 국책연구기관인 ETRI도 시각 인공지능에 관한 한 백지 상태나 다름없었다. 인공지능이란 용어는 1956년 미국 다트머스대학 교수 존 매카시가 주도한 ‘다트머스 회의’에서 처음 등장했다. 인공지능 연구는 1970년대부터 주목받았다. 그러나 기대했던 것만큼 기술이 따라오지 못하자 관심이 사그라들었다. 1980년대 광학문자 인식(OCR), 지문 인식, 홍채 인식, 자동차번호판 인식 기술이 등장하면서 다시 인기를 모았다.

하지만 1990년대 초반 다시 암흑기를 맞았다. 그러다 1990년대 후반부터 인터넷과 검색엔진의 등장으로 분위기가 달라졌다. 방대한 데이터 수집이 가능해지면서 인공지능 연구는 또 한 번 중흥기를 맞는다. 이른바 빅데이터를 분석하여 인공지능 시스템 스스로 학습하는 머신러닝이 등장했다. 이어 인간의 뇌를 모방한 신경망 네트워크를 머신러닝에 더한 ‘딥러닝 알고리즘’이 출현, 새로운 창을 열었다. 인공지능 4대 천황라고 불리는 제프리 힌튼(캐나다 토론토대학), 얀 르쿤(페이스북), 앤드루 응(바이두) 등이 개발 주역이다. 딥러닝 알고리즘은 주로 영상 분석, 음성 인식, 언어 번역을 위해 사용되고 있다. 이후 시각 인공지능 역사를 다시 쓴 인물은 알렉스 크리제브스키(캐나다 토론토대학)다. 그는 2012년 시각 인공지능 경진대회인 ‘이미지넷’에서 우승을 차지했다. 알렉스의 시스템이 등장하기 이전까지 컴퓨터의 이미지 인식률은 75%를 넘지 못했다. 알렉스는 이를 순식간에 84.7%라는 정확도로 끌어올렸다. 알렉스 크리제브스키의 방식은 나선형신경망(CNN)을 이용하여 알렉스넷(Alexnet)이라고 불리는 심층 신경망(Deep Neural Network)을 설계한 뒤, GPU(그래픽처리장치)를 활용하여 수없이 많은 이미지 인식 훈련을 하는 것이었다.

박종열 박사는 “2012년에 알렉스넷이라는 딥 뉴럴 네트워크 기술이 나왔고, 우리의 과제는 2013년에 시작했다. 딥러닝 기술이 되는지 안 되는지도 모르고, 딥러닝을 할 수 있는 방법도 우리는 알지 못했다. 신경망 네트워크 안에 들어가는 기술에 관한 논문은 부분적으로 발표되어 있었다. 하지만 그걸 모아서 시스템을 구성하는 방법에 관한 전체 논문은 없었다. 직접 만들어 작동하는지 여부를 실험해보는 건 다른 얘기였다”라고 말했다.

처음에 만든 시스템은 형편없었다. 알렉스넷에서 가져온 아이디어와 ETRI가 기존에 갖고 있는 걸 앞뒤로 연결시켜 구성한 심층 신경망 네트워크였다. 하지만 꾸준히 성능을 업그레이드했다. 남들이 개발해놓은 기술을 그대로 가져다 쓰지 않고 독자 방식을 구축했다.

인터뷰가 길어지면서 박종열 박사를 따라 자리를 옮겼다. ETRI 소프트웨어연구소 건물동 1층 컴퓨터 서버 방에 들어가니 소음이 대단했다. 박 박사가 이끄는 시각지능연구그룹이 사용하는 컴퓨터들이다. 이 컴퓨터 서버들에는 GPU라고 불리는 고가의 영상정보 처리장치가 들어가 있다. 박종열 박사는 서버들을 이리저리 가리키며 “이건 BMW7 시리즈 자동차 한 대 값이고, 저건 BMW5 시리즈 한 대 값”이라고 말했다. 수천만원이라는 얘기다.

박종열 박사팀은 2015년부터 2017년까지 BMW5 시리즈 40대가 들어가는 시스템을 구축했다. GPU들이 꽂혀 있는 서버 40대였다. GPU가 시각 인공지능 연구자에게 중요한 건 ‘알렉스넷’의 등장 이후다. 알렉스넷은 딥러닝에서 요구하는 엄청난 규모의 연산을 빠르게 처리하기 위해 병렬 컴퓨팅에 유리한 GPU를 사용한다. 이후 딥러닝 연구는 GPU와 함께 발전하게 된다. 박종열 박사가 이끄는 시각지능연구그룹이 고가의 GPU를 필요로 하는 건 이 때문이다.

고가의 GPU는 시각 인공지능 연구자의 프로젝트를 제한하고 규정한다고 해도 과언이 아니다. 예컨대 박종열 박사는 곧 대전시와 CCTV 영상검색 시범 사업에 들어간다. 대전 전역에 설치된 5000대의 CCTV를 골라 그중에서 100대를 대상으로 영상 검색 시스템을 가동시킨다. 5000대 모두를 대상으로 하지 못하는 건 비싼 GPU 가격 때문이다. 가격이 수천만원에 이르는 GPU가 들어간 서버 컴퓨터를 많이 구입할 수가 없다. 그래서 우선 서버 5대만 가동시키고, 이 서버들로 CCTV 100대를 관리하려고 한다.

박종열 박사가 시각 인공지능 연구 결과를 현장으로 들고나온 건 ‘성공 스토리’를 찾는 게 이 분야의 추세이기 때문이다. 시각 인공지능에 대한 기술은 현 시점에서는 일단 성숙한 분위기다. 지금 연구자에게 필요한 건 ‘성공 스토리’라고 그는 말했다.

“ETRI의 경쟁자는 구글, 마이크로소프트이다. 이들이 우리보다 조금 앞서 있는 건 사실이다. 우리는 인력이 많지 않으나 잘하는 부분에 집중하려고 한다. 사물 인식과 검출, 추적에 초점을 맞추고 있다. 거기서 조금 더 나아가면 지식화해서 검색하는 방향으로 나아갈 수 있다.”

시각 인공지능이 발전하면 AI스피커에 그 기능이 장착될 것이라고 박종열 박사는 말했다. 현재의 AI스피커는 음성 인공지능이 탑재되어 있는데, 여기에 시각 인공지능이 들어가면 화재 발생 경고, 도둑 침입 경고와 같은 일도 가능해진다고 했다. 그의 말을 듣고 있으니 새로운 세상이 열리고 있는 듯했다. 박종열 박사는 서울 장훈고, 충남대 컴퓨터공학과(학부), 광주과학기술원(박사)에서 공부했다. 한국전자통신연구원에는 2004년에 들어갔고, 이후 IPTV서비스와 SNS지능서비스를 연구 개발했다.

최준석 선임기자
저작권자 © 주간조선 무단전재 및 재배포 금지