김무중 한컴인터프리 개발팀장 ⓒphoto 이신영 영상미디어 기자
김무중 한컴인터프리 개발팀장 ⓒphoto 이신영 영상미디어 기자

인공지능 기술개발의 척도인 기계번역 경쟁에 가속도가 붙고 있다. 지난해 9월 구글이 자사 번역앱에 인공신경망(NMT·Neural Machine Training) 방식을 도입했다. 국내 1위 포털 네이버는 이에 앞선 8월 자사의 번역앱인 파파고에 인공신경망 방식을 도입했다.

지니톡은 한컴인터프리가 지난해 4월 출시한 외국어 통번역 앱이다. 이용자가 한국어로 말하면 기계가 번역해 외국어로 다른 이용자에게 말로 전달하는 식이다. 현재 한·중·영·일어 등 8개 국어를 지원한다. 최근 한·영 번역에 인공신경망이 탑재됐다. 한컴인터프리는 ‘한글’ 소프트웨어로 유명한 한글과컴퓨터와 미래부 산하 한국전자통신연구원(ETRI)이 합작한 회사다. 김무중(45) 한컴인터프리 개발팀장은 지니톡 개발팀의 핵심 개발자다. 지난 2월 7일 성남시 판교동의 한컴 본사 1층 회의실에서 김무중 팀장을 만났다.

김 팀장은 2015년 6월 한컴인터프리 설립 당시부터 지니톡 개발을 담당했다. 그는 대전대 멀티미디어시스템 대학원에서 석사 학위를 받았다. 졸업 이후에는 e-러닝 소프트웨어를 개발하는 업체 두 곳에서 10여년간 경력을 쌓았다.

지니톡은 제품 출시는 빨랐지만 인공신경망 탑재는 구글과 네이버에 비해 6개월가량 늦었다. 인공신경망 방식은 기계번역의 패러다임을 바꾼 혁신적인 기술이다. 말뭉치 간의 배열 방식을 정해주면 기계가 스스로 데이터를 학습해 번역하는 방식이다. 이 방식을 도입한 엔진과 도입하지 않은 엔진의 성능에는 고등학생과 초등학생 수준의 차이가 난다. 김 팀장은 “지난해 우리도 인공신경망을 도입했지만 완벽하게 만들기 위해 탑재 발표 시점을 미루다 구글과 네이버에 밀렸다”며 “인공신경망 방식을 도입한 만큼 경쟁사들을 곧 따라잡을 수 있을 것”이라고 말했다.

인공신경망 방식이 도입된 기계번역에서는 데이터(말뭉치)를 얼마나 확보했는지가 경쟁력의 척도라는 것이 업계의 중론이다. 인공지능 기술은 모두에게 공개된 오픈 소스이기 때문에 큰 차이가 없고, 얼마나 많은 데이터를 축적했느냐가 기계번역의 품질을 결정하는 열쇠라는 뜻이다. 국내 최대 포털업체인 네이버가 유리한 점도 여기에 있다.

김 팀장에 따르면 한컴인터프리는 지니톡을 개발하기 위해 필요한 말뭉치를 주로 두 가지 경로로 확보한다. 하나는 ETRI 등 정부기관에서 모은 관(官) 데이터다. 정부 기관이 모은 막대한 공공 데이터가 이용된다. 다른 하나는 지니톡을 통해 확보되는 말뭉치다. 김 팀장에 따르면 지니톡을 통해 확보되는 데이터는 많게는 하루 5만건에 달한다. 개발팀은 이 데이터 중 일부를 추려내 성능개선에 활용한다. 기계가 판단하기에 인식은 했는데 의미가 확실하지 않은 말뭉치가 주로 이용된다. SNS를 통해 유행하는 신조어도 기계학습에 주로 쓰이는 데이터다.

김 팀장은 지니톡 개발팀의 궁극적인 목표를 오프라인 통역기 개발이라고 밝혔다. USB, 에그 등의 단말기 형태로 제작해 블루투스로 연결하면 오프라인에서도 사용 가능하도록 만드는 것이다. “캐나다에 오로라를 보러 가서 외국인에게 얘기를 하려고 하는데 통역기가 작동하지 않는다고 생각해 보세요. 느린 홈페이지는 기다려도 느린 통역은 못 기다리거든요. 지니톡이 앞으로 이 문제를 해결해 줄 겁니다.”

키워드

#IT
배용진 기자
저작권자 © 주간조선 무단전재 및 재배포 금지