자동 기사 생성 알고리즘에 의해 컴퓨터 스스로 기사를 작성하는 ‘로봇 저널리즘’이 확산되고 있다. ⓒphoto 연합
자동 기사 생성 알고리즘에 의해 컴퓨터 스스로 기사를 작성하는 ‘로봇 저널리즘’이 확산되고 있다. ⓒphoto 연합

LA타임스 ‘퀘이크봇’

포브스 ‘내러티브 사이언스’ 야후 ‘워드스미스’…

미국의 LA타임스 온라인판은 지난 3월 30일 새벽 2시26분 캘리포니아주 베이커로부터 34마일(약 55㎞) 떨어진 곳에서 진도 4.0의 지진이 발생했다고 보도했다. 이 지진의 최초 보도인 이 기사는 인터넷망을 타고 세계로 빠르게 전파됐다. 지진 발생부터 기사 보도까지 걸린 시간은 단 5분. LA타임스의 이 기사는 지진 발생 지역의 상세지도가 들어가 있었고 ‘해당 지역에서 최근 10일 새 진도 3.0 정도의 지진이 한 번 더 있었다’는 내용을 싣고 있었다. 지진 발생 5분 만에 나온 기사가 발생 사실을 짧게 내보내는 데 그치지 않고, 과거 지진 기록과 그래픽 자료까지 전달한다는 것은 놀랍다. 이것이 가능했던 이유는 LA타임스의 지진 보도 전문 로봇기자가 원고를 작성했기 때문이다. 기자의 이름은 ‘퀘이크봇(Quakebot)’.

로봇 ‘퀘이크봇’은 진도 3.0 이상의 지진이 발생하면 자동으로 기사를 작성한다. 퀘이크봇은 지난 3월 한 달간 9개의 지진 관련 속보를 썼다. 지진 속보 전쟁의 확실한 승자다.

퀘이크봇 외에도 미국과 영국을 중심으로 로봇기자를 활용하는 언론사가 느는 추세다. LA타임스 외에도 미국의 경제잡지 ‘포브스’, AP통신, 영국 신문 ‘가디언’이 로봇기자를 활용한다. 이런 분위기를 타고 ‘로봇 저널리즘’이란 말도 등장했는데, 영미권에서는 ‘로봇 저널리즘’이 일반명사로 빨리 자리 잡는 분위기다.

로봇기자라고 해서 로봇이 키보드를 두드리며 기사를 쓰는 건 아니다. 데이터를 바탕으로 일련의 절차들, 즉 알고리즘에 의해 기사가 자동 생성된다.

미국의 경제잡지 포브스는 2012년 초반부터 로봇 저널리즘을 도입, 성공적으로 정착시켰다. 포브스의 일부 산업 관련 기사를 보면 작성기자 이름난에 ‘내러티브 사이언스(Narrative Science)’란 표기가 많다. 기업 분석과 전망, 주가 동향 등에 관한 기사를 쓰는 산업 담당 로봇기자다. 내가 포브스 사이트에 들어가 검색해 보니, ‘내러티브 사이언스’는 지난 4월 11일 하루 동안에만 ‘JP모건 체이스, 실적 증가’ ‘존슨앤존슨 수익 감소 예상’ 등 7개의 기업 분석 관련 기사를 좌르르 쏟아냈다.

현재 가장 맹위를 떨치는 로봇기자는 ‘워드스미스(Wordsmith)’다. 워드스미스는 일단 기사량으로 압도한다. 2013년 한 해 동안 300만건을 썼고, 2014년에는 10억건을 썼다고 한다. 워드스미스는 활동 분야도 광범위한 멀티플레이어다. 포털사이트 야후(www.yahoo.com)가 워드스미스에게 기상예보, 주식 관련 리포트, 축구 리포트나 야구 관전평을 쓰게 하며, 자동차 관련 사이트 에드먼드 닷컴(www.edmunds.com)은 워드스미스가 자동차 리포트를 작성한다.

워드스미스는 기사의 대량생산을 위해 만든 인공지능 시스템이다. 미국의 테크놀러지 기업인 시스코 출신으로 ‘오토메이티드 인사이트’를 창업한 로비 앨런이 만들었다. 아마존 클라우드 기반의 플랫폼인 워드스미스는 1~2시간 동안 수천 개의 서버에 있는 데이터를 모아 수백만 개의 기사를 만들어낼 수 있는 능력을 지녔다.

로봇기자는 선거판에도 뛰어들었다. 2012년 당시 오바마 진영이 활용한 ‘드림캐처(Dreamcatcher)’는 온라인의 유세 관련 글, 유권자들이 콜센터와 통화한 내용 등을 종합해 일정한 패턴을 찾아 기사화했다.

로봇기자는 인간이 정해둔 툴에 따라 기사를 쓴다. 로봇기자에게 가장 중요한 능력은 정보를 수집하고 처리하는 능력이다. 데이터를 검색한 후 필요한 데이터를 수집하고 자체 방식으로 분석해 기사를 쓴다. 입력된 데이터 안에서만 작성할 수 있기 때문에 로봇기자의 활동 무대는 경제·스포츠·날씨 등 데이터 수집이 유리한 부분에 국한된다.

포브스의 ‘내러티브 사이언스’가 쓴 기업 기사.
포브스의 ‘내러티브 사이언스’가 쓴 기업 기사.

한국에도 로봇기자 등장…

인기 기사 소개하는 테크홀릭의 ‘테크봇’

얼마 전 한국에도 로봇기자의 글이 등장했다. IT 전문 미디어 ‘테크홀릭’의 ‘테크봇’ 얘기다. 테크봇은 온라인에서 화제가 된 기사를 순위별로 보여주는 기사 ‘위클리 초이스’를 매주 올린다. 테크봇이 지난 4월 11일에 쓴 기사를 보자.

“어디든 붙여놓고 찰칵… 원격 카메라.

이번 주에 가장 화제가 된 테크 관련 기사는 뭘까. 2015년 04월 06일부터 04월 10일까지 5일 동안 테크홀릭이 게재한 기사 중 조회수 70%, 트위터와 페이스북, 구글플러스 등 소셜미디어를 통한 공유 등 반응도 30%를 반영해 금주의 기술 트렌드를 짚어본다.

일별로 살펴보면 월요일에는 어디든 붙여놓고 찰칵… 원격 카메라, 화요일은 구형가전을 스마크폰으로 바꿔준다?, 수요일은 마우스 안에 데스크톱 PC가? 등을 나타냈고 목요일에는 킥스타터에 도전장 낸 ‘토종 스마트 화분’, 금요일은 지붕엔 태양광…연비 2배 개선한 수퍼트럭 같은 기사가 독자의 호응도가 가장 높았다.…”

맨 뒤 작성자란에는 ‘테크봇’으로 돼 있다. 군더더기 없는 정형화된 기사다. 띄어쓰기나 문장 부호 등에서 어색한 부분은 있으나 어엿한 하나의 기사로는 손색없다. ‘테크봇’은 자동 기사 생성 알고리즘에 의해 기사를 쓴다. 국내 최초의 로봇기자인 셈이다.

테크봇을 개발한 회사는 ‘기사를 기술이라는 관점에서 바라보는 미디어’를 표방한 ‘테크홀릭’이다. 테크홀릭의 이석원 발행인 겸 편집인은 한국의 로봇 저널리즘 수준에 대해 “시작도 못한 단계”라고 표현했다. 테크봇의 기사 작성에 대해서는 “엄밀히 말해 미리 작성된 기사 틀에 수치만 대입한 수준에 불과하다”며 ‘로봇 저널리즘’을 로봇이 사람처럼 기사를 쓰는 것으로 오인하는 인식에 대해 경계했다.

우리나라는 영미권처럼 언론사가 나서서 로봇 저널리즘을 적극적으로 시도하는 경우도 거의 없고, 관련 분야 전문가도 전무하다시피하다. 이번 취재를 위해 접촉한 언론정보학과 및 디지털미디어학부 교수들 역시 로봇 저널리즘에 대한 피상적인 이해에 머문 수준이었다.

테크홀릭은 지난해 말 한 심포지엄에서 ‘테크봇’ 관련 기술을 소개한 이후 로봇기사를 써줄 수 있느냐는 문의를 종종 받는다고 한다. 이석원 발행인의 말이다. “언론사와 증권사에서 연락이 종종 온다. ‘우라까이’ 기사(기존 기사를 변형해 쓰는 기사로, 기자 사회의 은어)를 써 줄 수 있느냐고. 그렇게 만들어줄 수는 없다. 자동 기사 작성 로봇은 데이터를 기반으로 하는데, 축적된 데이터가 없기 때문이다. 증권의 경우 데이터는 있지만 이 데이터를 분석해서 자동 기사 로봇에 반영해줄 수 있는 전문가가 없다.”

그는 또한 “언어적인 기술력도 문제”라고 지적했다. 데이터가 충분히 수합돼도 사람이 말하듯 자연언어를 생성하려면 관련 전문가나 조직과의 협력이 필요하다는 얘기였다. 또한 영어처럼 언어 사용자가 많지 않다 보니 시장 규모가 작아 투자 가치 면에서 한계가 있다고 지적했다. 이런 점을 보완해줄 정책적 지원이 필요하다는 것이다.

‘IT 강국 코리아’에서 왜 로봇 저널리즘은 한참 뒤처져 있을까. 취재 과정에서 접촉한 전문가들은 하나같이 ‘IT 강국 코리아’라는 전제 자체를 부정했다. 초고속 인터넷망, 1인 1스마트폰 등으로 대표되는 하드웨어와 인프라 면에서는 선진국이지만 소프트웨어 측면에서는 후진국이라는 것. A 교수는 기술 융합이 잘 안 되는 교육 제도 및 사회 풍토를 지적했다.

“로봇 저널리즘이 발전하기 위해서는 통계 분야 컴퓨터공학과 언어 분야 컴퓨터공학이 융합해야 한다. 데이터와 스토리텔링이 결합돼야 하기 때문이다. 미국은 프로그래머가 풍부하지만 우리나라는 통계 분야 컴퓨터공학 전문가가 희귀하다. 소프트웨어 전문가를 우대해 주지 않고 막일꾼 취급하는 사회 분위기가 만연해 있기 때문이다. 그래서 정보통신 인재는 공대를 가지 않고 수학과를 나와서 연봉이 높은 금융계로 빠지는 경향이 있다.”

B 교수는 변화를 두려워하는 언론계의 풍토를 지적했다. 우리나라 언론계와 방송계는 뉴미디어에 대한 평가를 절하하는 분위기가 있다는 얘기였다.

로봇 편집장이 만든 ‘가디언’지의 주간신문 ‘더 롱 굿 리드(The Long Good Read)’.
로봇 편집장이 만든 ‘가디언’지의 주간신문 ‘더 롱 굿 리드(The Long Good Read)’.

로봇기자 vs 실제 기자

그렇다면 기사의 질은 어떨까? 로봇기자보다 실제 기자가 쓴 글이 더 월등할까? 로봇이 쓴 글은 일정한 흐름 안에서 기계적인 패턴이 반복되는 한계가 있지만 문체만으로는 둘의 차이를 구별하기 힘든 경우가 많다.

이와 관련된 재미있는 실험이 있다. 지난해 3월 스웨덴의 클러월 교수가 대학생 46명을 대상으로 로봇기자와 실제 기자가 쓴 글을 비교하게 했다. 실험은 기사 작성자를 밝히지 않는 블라인드 테스트 방식으로 이루어졌다. 결과 ‘객관성(Objective)’ ‘정보성(Informative)’ ‘정확성(Accurate)’ 면에서는 로봇이 더 좋은 평가를 받았다. 대신 로봇의 글은 ‘지루하다(Boring)’는 평이 많았고, 사람의 글은 ‘읽는 재미가 있다(Pleasant to read)’ ‘잘 썼다(Well-written)’는 평이 많았다.

로봇의 글은 딱딱해서 ‘읽기의 즐거움’을 선사하는 글을 쓸 수는 없다는 얘기다. 하지만 방심할 수 없다. 워드스미스의 글쓰기 능력은 나날이 진화 중이기 때문이다. 최근 워드스미스는 역사적 일화를 인용하는 수준까지 진화했다. 또한 특유의 뉘앙스나 분위기 살리는 법, 이야기 구조를 바꾸고 어법을 달리하는 법도 학습했다.

로봇기자의 영역은 기사 작성뿐 아니라 편집기자로까지 뻗어 있다. 영국의 가디언지에서 2013년 11월부터 발간한 주간신문 ‘더 롱 굿 리드(The Long Good Read·긴 읽을거리)’는 로봇편집장이 만든다. 24쪽짜리 타블로이드 판형인 이 종이신문은 가디언의 온라인 기사 중에서 길이가 긴 기사를 공유와 댓글과 SNS 등의 기준으로 선별한 후 자동편집해 만든다. 이 신문은 무료로 배포되는데 독자들로부터 흥미진진하면서도 깊이 있는 읽을거리가 많다는 호평을 듣는다.

로봇기자가 기자의 영역을 점점 침범해오는 건 분명한 현실이다. 그렇다면 로봇기자가 기자의 일자리를 빼앗을까? 구글이 선정한 세계 최고의 미래학자 토머스 프레이는 컴퓨터 알고리즘과 로봇의 발전으로 “20년 후 20억개의 직업이 사라질 것”이라며 20년 후 사라질 직업에 기자를 포함시켰다. 얼마 전 내러티브 사이언스 최고기술책임자(CTO) 크리스 해먼드는 “5년 내에 로봇이 쓴 기사가 퓰리처상을 탈 것이며 15년 뒤에는 전체 기사의 90% 이상을 로봇이 작성하게 될 것”이라는 극단적인 예측을 내놨다.

하지만 로봇기자는 분명한 한계가 있다. 일단 로봇기자는 현장기사를 못 쓴다. 앞서 언급한 토머스 프레이 역시 사라질 직업군에 기자를 언급하면서 현장기자와 취재기자를 제외했다. 로봇기자는 분석기사나 예측기사 작성에 한계가 있고, 기자 스스로 기사 가치를 판단하지도 못한다.

로봇기자는 기자의 ‘대체재’가 아니라 ‘보완재’라는 예측이 지배적이다. 잡스러운 데이터 관련 기사는 로봇이 작성하고 현장취재와 심층취재, 기획취재 등 인간의 판단력이 중요한 기사는 기자들이 직접 작성하게 된다는 얘기다. 데이터를 수집 분석해 기사를 자동으로 생성하는 알고리즘은 비단 기사 작성에 한정되지 않는다. 자료를 취합해 필요한 정보를 추려내는 업무에 두루 해당된다. 지난 2013년 정보 수집 및 관리가 핵심인 미 CIA에서 내러티브 사이언스에 투자한 사실은 기사 작성 알고리즘의 적용 가치를 웅변한다.

새로운 전망도 있다. 노스캐롤라이나대의 라이언 손버그 교수는 “사용자 데이터와 소셜네트워크 데이터가 결합된 개인별 맞춤기사를 보게 될 것”이라고 내다봤다. 워드스미스를 만든 오토메이티드 인사이트의 CEO 로비 앨런은 스포츠 중계를 맞춤형 개인 중계로 볼 수 있는 시대가 머지않았다고 말했다. 워드스미스에 경기장에서 벌어지는 장면을 3차원 데이터로 측정해 제공하는 기술이 결합되면 가능하다는 것이다.

개인별 맞춤 기사 시대가 오면 ‘매스 미디어’라는 개념이 사라질지도 모른다. 다수를 위한 하나의 기사가 아니라 단 한 명을 위한 다수의 기사가 존재하게 될 테니 말이다.

김민희 기자
저작권자 © 주간조선 무단전재 및 재배포 금지