ⓒphoto 임영근 영상미디어 기자
ⓒphoto 임영근 영상미디어 기자

서울 한 사립대에서 박사과정 논문을 준비 중인 권자연씨는 지난해 논문 심사를 준비하며 진땀을 흘린 적이 있었다. 5년 넘게 준비한 논문을 논문 표절 진단 프로그램 ‘카피킬러’로 검사해봤는데 표절률 17%라는 결과를 받았기 때문이었다. “논문 심사에 통과하려면 표절률 10% 미만이라는 검사 결과서를 꼭 첨부해야 한다는 규정이 생겼거든요. 학생들 모아 놓고 프로그램 이용 방법에 대해서 간단하게 설명해주기도 했어요.”

최근 몇 년간 언론을 통해 제기된 표절 의혹은 대부분 카피킬러로 검사해 본 결과를 제시하고 있다. 최근 도종환 문화체육관광부 장관 후보자, 김상조 공정거래위원장에 제기된 의혹은 물론 지난해 감사원의 연구 용역 보고서, 한국체육대학교 교수들의 논문까지 모두 카피킬러의 검증을 피해가지 못했다. 심지어 대학 입시에서도 카피킬러가 쓰인다. 자기소개서를 제출하는 학생도, 제출받은 대학도 카피킬러로 글을 검사한다. 정치권, 학계, 정부기관, 일반인까지도 카피킬러라는 이름에 긴장하게 된 상황이다.

카피킬러를 만든 회사는 2011년 설립된 소프트웨어 업체 ‘무하유’다. 지난 6월 14일 서울 성동구 성수동에 있는 무하유 사무실에서 만난 신동호 대표는 원래 인공지능(AI)을 연구하던 공학자였다.

“대중에게 잘 알려지지는 않았지만 많은 학자들이 표절 프로그램을 개발하고 있었어요. 제가 무하유를 설립하고 카피킬러를 출시하기 전까지는 일종의 한계가 있었죠.”

이전의 표절 검사 프로그램은 말하자면 비교 대상 논문과 일대일 비교를 하는 방식이었다. 일일이 비교를 하다 보니 시간이 많이 걸렸다. 참조할 자료들의 수도 많지 않아 완벽하게 표절 검사를 마쳤다고 말하기 어려웠다. 이 프로그램들은 주로 대학에서 학위 논문을 검사하는 데 쓰였기 때문에 일반 대중이 접하기는 어려웠다.

카피킬러는 달랐다. 일대다(多) 비교가 가능한 알고리즘을 구축했다. 현재 카피킬러에서 표절 검사를 위해 구축된 DB 문서는 50억건에 달한다. 학술논문, 서적뿐 아니라 블로그, SNS의 글도 카피킬러의 DB에 구축돼 있다.

“애초에 카피킬러를 만든 이유는 크게 두 가지입니다. 하나는 누구나 사용할 수 있게 하는 것, 카피킬러만 거치면 한글로 된 글에 대해서는 객관적으로 표절 검사가 완벽하게 이뤄지는 것입니다. 그러기 위해서 일대다 비교를 했고 표절률을 명확하고 상세하게 제시하면서 무료 서비스를 오픈했습니다.”

카피킬러 프로그램을 접하기 전에는 결과의 정확성에 반신반의하던 사람들도 실제로 사용해 보고 나서는 믿기 시작했다는 게 신 대표의 이야기다.

“간과하기 쉬운 일이지만 표절 프로그램의 핵심은 이용자들이 결과에 얼마나 납득하느냐 하는 것입니다. 저희가 표절이라고 말했는데 ‘아닌 것 같은데?’라고 이의를 제기하게 되면 ‘객관적인 표절 여부를 판단해주겠다’는 목적을 달성할 수 없게 됩니다.”

카피킬러로 직접 검사해보자. 기자가 한 청소년 단체의 의뢰를 받아 썼던 짧은 에세이가 있다. 글을 등록하고 검사하는 데 걸린 시간은 2분 남짓. 표절률은 4%로 나왔다.

“기관마다 카피킬러로 검사해 10%가 나와야 한다, 20%가 나와야 한다 여러 기준을 제시하는 것을 저희도 알고 있습니다. 그런데 저희가 먼저 10%는 안전, 20%는 위험이라고 말하지 않아요. 기본적으로 표절률은 0%를 향해 가야 한다고 생각하거든요. 0%를 위해서, 더 낮은 표절률을 위해서 자신의 글을 다시 읽고 고치고 새로 쓰다 보면 더 좋은 창작물이 나올 거라고 생각합니다.”

표절 전문가들은 표절 기준을 수치로만 제시하는 것이 위험하다고 말하지만 신 대표의 생각은 조금 다르다. “물론 표절률은 참고로 하고 정확한 진단은 전문가들과 전문 심사위원회 등에서 내려야 한다고 생각합니다. 학문 분야와 검사하는 글의 성격과 관계 없이 일률적 기준을 세우는 것도 위험하다고 생각합니다. 그러나 객관적인 기준은 필요해요. 카피킬러는 점점 더 객관적이고 정확한 기준에 다가가고 있습니다.”

카피킬러가 그리는 미래는 이렇다. 사용자 데이터가 쌓이면 쌓일수록 학문 분야와 글의 성격에 따른 객관적 기준이 마련될 수 있다. “일종의 정규분포도가 그려지는 겁니다. 공학 분야에서는 몇 퍼센트, 인문학에서는 몇 퍼센트에서 표절이다 아니다를 판단할 수 있는 데이터가 모일 겁니다. 그러면 저희는 그 데이터를 바탕으로 각 기관과 학교에 ‘표절 컨설팅’을 할 예정입니다.”

지금은 기관마다 학교마다 카피킬러 데이터를 사용하는 기준이 다르다. 어떤 대학교는 5%를 요구하기도 하고, 어떤 학회는 10%를 요구하기도 한다. 아예 “결과에 대해 모두 소명하라”고 요구하는 곳도 있다. 이 중구난방인 기준에 대해 카피킬러가 기준을 제시해주고 싶다는 게 신 대표의 계획이다.

카피킬러처럼 프로그램화된 표절 검사에서 가장 문제가 되는 것은 ‘의미 표절’이다. 단지 몇 단어, 몇 퍼센트 유사한 정도가 아니라 아이디어나 심층 의미가 비슷하지만 표현은 다른 표절 방식이 있다. 카피킬러는 올해 하반기 중에 이를 판단할 수 있는 ‘심층 분석’ 서비스를 내놓을 예정이다.

“시행착오를 겪었지만 이제는 심층 분석 서비스를 내놓을 수 있을 것 같습니다. 연구 아이디어가 표절된 것 같은데 객관적 증거가 필요할 때 카피킬러의 결과를 참고할 수 있도록 서비스를 제공하는 게 저희의 목표입니다.”

다만 신 대표는 “완벽한 서비스는 아니라는 점을 이용자들에게도 알릴 예정”이라고 한다. 의미 차원에서 표절을 완벽하게 구별하는 일은 전문가 집단에서도 찬반이 엇갈리는 문제다. 프로그램으로 도출한 결과 역시 참고사항으로 활용해야 한다는 설명이다.

카피킬러는 표절 여부를 판단하는 데만 사용하는 것이 아니다. 작가들이 자신의 책 개정판을 내놓을 때 카피킬러를 활용하는 경우도 있다고 한다. “출판사 관계자들이 예전 같으면 일일이 예전 원고, 새 원고 옆에 두고 비교했을 텐데 요즘은 카피킬러에 파일 하나 넣고 몇 분만 기다리면 돼서 편하다고 하더군요.”

몇 년 넘게 학위 논문을 쓰다 보면 종종 자신이 참고한 자료가 무엇인지 잊어버리는 학생들도 있다. 카피킬러는 역으로 출처를 찾는 데도 유용하다. 카피킬러가 표절을 잡아내는 것만 아니라 다양한 방법으로 쓰인다는 점에 신동호 대표는 “바람직한 방향”이라고 말했다.

“왜 우리가 표절을 문제로 삼는지를 잘 생각해 봐야 합니다. 남의 연구 성과를 노력 없이 취득하려는 도둑질을 걸러내기 위해서이기도 합니다. 더 중요한 건 표절을 문제로 삼는 것은 답습이 아니라 발전, 창의적인 발전을 위해서라는 점입니다. 카피킬러가 학문 발전에 다방면으로 쓰인다면 저희로서는 바랄 것이 없습니다.”

키워드

#커버스토리
김효정 기자
저작권자 © 주간조선 무단전재 및 재배포 금지