바로가기 메뉴
메인메뉴 바로가기
본문 바로가기

주간조선 로고

상단주메뉴

  • [과학자의 세상 읽기]  사전투표 조작? ‘통계적 기적’은 실제 일어난다
  • facebook네이버 밴드youtubekakao 플러스친구
  • 검색
  1. IT/과학
[2607호] 2020.05.11
관련 연재물

[과학자의 세상 읽기]사전투표 조작? ‘통계적 기적’은 실제 일어난다

이덕환  서강대 명예교수, 화학·과학커뮤니케이션 duckhwan@sogang.ac.kr

▲ 민경욱 미래통합당 의원이 인천범시민단체연합 관계자들과 지난 4월 22일 서울 여의도 국회 소통관에서 4·15 총선 부정선거 의혹 관련 기자회견 후 취재진의 질문에 답하고 있다. photo 뉴시스
유튜버들의 총선 조작설이 점입가경이다. 자료 정리용 스프레드시트인 엑셀 매니아들이 선관위가 공개한 선거구·투표소별 투표 결과로 계산해낸 ‘득표율’에서 수상한 통계적 의혹들을 찾아내고 있다. 서울·인천·경기의 사전선거 득표율이 민주당과 미래통합당이 각각 ‘63 대 36’으로 똑같다는 지적에서 시작된 의혹이 빠르게 진화하고 있다. 사전선거와 당일선거의 득표율 차이가 통계적으로 납득하기 어렵고, 0.39라는 ‘상수’도 발견했다고 한다. 그런 의혹들이 통계적 관점에서 ‘인위적 개입’의 증거라고 주장하는 통계학자·물리학자도 있다.
   
   
   미베인 교수의 논문 바로 읽기
   
   이 의혹과 관련해 미시간대학교의 월터 미베인 교수가 ‘2020 한국 총선에서의 사기’라는 논문의 초안을 온라인에 공개했다고 한다. 자신이 개발한 ‘e포렌식(eforensics)’이라는 선거분석 도구를 이용한 분석의 결과가 놀랍다. 최대 1287개 투표소에서 문제가 발견되었고, 유효 투표 중 최대 10.43%가 ‘사기(fraud)’에 의한 것으로 추정된다는 것이다. 언뜻 매우 심각한 문제를 밝혀낸 것처럼 보인다.
   
   그런데 논문을 직접 읽어본 결과 진짜 결론은 자극적인 제목과는 거리가 매우 멀다. 사기로 추정되는 일들이 거의 모든 선거구에서 ‘고르게’ 나타난다는 것이다. 실제로 미베인 교수가 분석한 252개 선거구 중 236개 선거구에서는 사기의 흔적이 발견되기는 했지만 당락이 바뀌지 않았다. 실제로 사기에 의해 당락이 뒤바뀐 것으로 추정되는 경우는 16개 선거구뿐이었다. 그마저도 사기 덕분에 민주당 후보가 당선된 곳은 9개뿐이었다. 나머지 6개 선거구에서는 엉뚱하게도 당선자가 미래통합당 후보로 바뀌었고, 심지어 무소속 후보가 당선된 선거구도 있었다. 정말 여당이 저지른 조작이라면 애써 죽을 쒀서 남에게 줘버린 꼴이다.
   
   미베인 교수가 사용하는 ‘사기(fraud)’라는 용어도 조심스럽다. ‘e포렌식’에서는 사기를 기권표(abstention)를 활용한 것으로 보이는 ‘조작(manufactured)’과, 다른 후보의 득표를 훔쳐낸 ‘가로채기(stolen)’로 구분한다. 사기로 추정되는 149만1548표의 대부분인 112만2169표가 기권표를 득표로 간주한 조작이고, 가로채기는 36만9379표에 불과했다. 기권표를 활용한 조작은 투표율만 정확하게 확인하면 해결될 일이고, 유튜버들이 주장하는 조직적인 바꿔치기는 투표자(2912만6396명)의 1.27%에 불과했다. 미베인의 분석은 유튜버들의 주장과는 결이 전혀 다른 셈이다.
   
   미베인 교수의 논문이 성실하게 수행된 분석의 결과라고 보기도 어렵다. 우리 선거제도에서는 사전선거의 선거인 명부가 따로 있는 것이 아니라는 사실을 고려하지 않았다. 사전등록을 해야만 하는 미국과 달리 우리나라에서는 유권자라면 누구나 자유롭게 사전선거(pre-vote)에 참가할 수 있다. 따라서 우리의 사전선거에서는 e포렌식이 사용하는 ‘투표율(turnout proportion)’과 ‘득표율(vote proportion)’을 정의할 수 없다. 결국 대부분의 사기가 사전투표에서 발견되었다는 논문의 주장은 의미가 없는 것이다. 서울대 정치학과 박원호 교수도 지적한 바 있는 매우 중요한 사실이다.
   
   미베인 교수가 분석한 선거 자료도 온전한 것이 아니었다.
   
   1개 선거구의 자료에서는 10만표가 누락되었고, 당선자들의 총득표수도 정확하지 않았다고 스스로 밝히고 있다. 개표소(aggregation unit)의 수도 무려 1만9072개로 선관위가 밝힌 투표소의 수 1만4330개를 훌쩍 넘어선다. 개인적으로 입수한 데이터가 온전치 않다는 사실을 알면서도 논문의 초안을 온라인에 공개한 것은 신뢰할 수 있는 학자의 자세가 아니다. 선진국의 선거 자료였다면 절대 그렇게 하지 못했을 것이다.
   
   미베인 교수가 볼리비아 총선을 분석한 2019년 11월의 논문에서 e포렌식의 유효성은 ‘충분히 확인되지 않았다’고 스스로 밝힌 사실도 주목할 필요가 있다. 미베인 교수가 에보 모랄레스 대통령이 축출되고 말았던 볼리비아 총선의 의혹을 밝혀낸 것도 아니다. 오히려 정반대로 불법이 없었다는 당혹스러운 결론으로 국제사회를 혼란스럽게 만들었다.
   
   미베인 교수는 지난 5월 9일 온라인으로 한국 총선에 관한 새로운 원고를 공개하기도 했다. ‘완전한 최신 데이터’(updated complete data)로 교체했다는 것이 핵심이다. 결국 4월 29일에 공개한 원고에서 분석했던 데이터는 온전치 않았다는 것을 스스로 인정한 셈이다. 성실한 학자라면 절대 용납할 수 없는 치명적인 실수다.
   새 데이터에서도 투표소의 수는 1만9131개로 오히려 더 늘어났다. 서울대 박원호 교수가 지적한 사전투표의 ‘유권자 수’(Number Eligible)에 대한 해명도 찾아볼 수 없다. 심지어 실제 유효 투표(Number Valid)를 (사전투표의) 유권자 수로 나눈 ‘투표율’이 80%에도 미치지 못하는 투표소도 많다.
   분석에 사용한 e포렌식에서‘사기’로 추정한 표는 138만2524표로 줄어들었고, 가로채기로 보이는 표도 35만1962표로 감소했다. 그런데 ‘사기’에 의해 당선자가 바뀐 선거구는 오히려 16개에서 27개로 늘어났다. 11개 선거구에서는 엉뚱하게 미래통합당 후보가 당선되었고, 2개 선거구에서는 무소속이 당선되었다. 선거 ‘사기’로 득을 본 미래통합당과 무소속의 비율이 43.8%에서 48.1%로 높아졌다.‘사기’의 주체가 누구인지를 가늠하기가 더욱 어려워진 것이다.
   미베인 교수의‘원고 바꿔치기'는 처음이 아니다. 11월 13일에 온라인에 공개한‘볼리비아 2019년 선거에서 부정 투표가 결정적이 아니라는 증거’라는 제목의 원고에는 ‘몇 사람으로부터 받은 메시지’를 근거로 자신이 11월 5일에 공개한 원고를 수정했음이 밝혀져 있다. 미베인 교수의 수정 원고는 2019년 10월 볼리비아 선거의 부정을 밝혀낸 것이라는 일부 주장과 다른 것이다. 오히려 심각한 부정을 저질렀다는 미주국가기구(OAS)의 판단과도 정반대의 주장을 담고 있는 것이다.
   
▲ 제21대 총선 사전투표일이 하루 지난 4월 12일 경기 과천시 중앙선거관리위원회 종합상황실에 마련된 사전투표함 보관장소 CCTV 통합관제센터에서 관계자들이 CCTV를 살펴보고 있다. photo 뉴시스

   벌어진 일에 대한 확률론적 해석의 위험성
   
   총선 조작설을 관통하는 핵심 이슈는 ‘다수의 선거구나 투표소에서 똑같은 의혹이 반복적으로 확인된다’는 것이다. 인위적 개입이 없는 정상적인 선거에서는 그런 일이 일어날 ‘확률’이 실질적으로 0이라고 해야 할 정도로 작기 때문에, 절대 일어날 수 없는 일이 일어났다는 것이 통계 전문가들의 공통된 주장이다.
   
   그런데 이건 어떤가. 253개 선거구에서 당선 확률이 90%인 후보들이 모두 당선됐다고 쳐보자. 이런 일이 일어날 확률은 0.9의 253제곱이다. 고작 1조(兆)분의 2.7에도 미치지 못하는 정말 작은 확률이다. 그렇다고 하더라도 실제 이런 선거 결과가 나오면 조작이라고 하지는 않는다.
   
   노벨물리학상을 받은 미국의 천재 물리학자 리처드 파인만이 물리학 강의 중에 그런 사실을 흥미롭게 설명했다. 파인만은 학생들에게 “주차장에 주차를 하고 보니 앞에 서 있는 자동차의 번호가 ARW 357이었는데 얼마나 놀라운 일인가? 운행 중인 수백만 대의 자동차 중에서 그 번호판을 달고 있는 자동차는 오직 한 대뿐이지 않은가?”라고 했다. 선거의 경우처럼 이미 일어나버린 일에 대한 확률론적 해석은 극도로 조심스러운 것이라는 뜻이다.
   
   유튜브에서 자주 소개되는 동전 던지기도 말처럼 간단하지 않다. 253개의 동전을 한꺼번에 던져서 모든 동전이 앞면 또는 모든 동전이 뒷면이 나올 확률은 대략 10의 78제곱분의 1이다. 그런 일이 일어날 확률이 상상도 할 수 없을 정도로 작다는 뜻이다. 평생 잠시도 쉬지 않고 동전을 던져도 그런 경우를 보게 될 가능성은 없다. 적어도 통계적으로는 그렇다.
   
   동전 던지기만 그런 것이 아니다. 1에서 45까지의 숫자 중에서 6개를 맞히는 로또의 당첨 확률도 814만분의 1이다. 통계적으로는 평생 동안 매주 로또를 사더라도 당첨될 가능성을 기대할 수 없다. 그런데 놀랍게도 실제로 로또에 당첨되는 사람이 나온다. 드문 일도 아니다. 거의 매주, 그것도 10명 안팎의 당첨자가 나오는 경우가 많다. 심지어 난생처음 구입한 로또가 당첨되기도 한다.
   
   동전 던지기도 마찬가지다. 확률적으로는 평생을 던져도 가능성이 없다. 그러나 253개의 동전을 단 한 번 던져 모두 앞면 또는 뒷면이 나올 수 있다. 확률이 순서를 뜻하는 것이 아니기 때문이다. 실제로 윷놀이에서도 ‘윷’과 ‘모’가 생각보다 자주 나오기도 한다.
   
   실제로 세상은 ‘통계적 기적’으로 가득 채워져 있다. 우리가 부모의 자식으로 태어난 사실도 생물학적으로 도대체 불가능한 통계적 기적이다. 낯선 길을 걷다가 오래전에 연락이 끊어졌던 옛 친구를 느닷없이 만나게 되는 기적도 일어난다. 사실 그런 확률적 기적 때문에 세상은 한번 살아볼 가치가 있는 것이다.
   
   
   ‘거짓말, 새빨간 거짓말, 그리고 통계라는 거짓말’
   
   통계를 작성하는 일은 절대 쉽지 않다. 쓰레기를 넣으면, 쓰레기가 나오는 것이 통계다. 엉터리로 만들거나 의도적으로 왜곡시킨 통계는 없는 것보다 못하다. 정부가 적지 않은 예산을 들여서 상당한 규모의 통계청을 운영하고, 통계청의 정치적 독립성을 보장하기 위해 노력하는 것도 그런 이유 때문이다.
   
   그런데 통계의 해석은 만드는 것보다 훨씬 더 어렵다. 통계에는 수많은 ‘요인’들이 복합적으로 함축되어 있기 때문이다. 통계에 담겨 있는 요인들을 정확하게 파악하지 못하면 엉뚱한 해석을 하게 된다. 통계 전문가들이 똑같은 통계에 대한 서로 다른 해석으로 치열하게 논쟁을 벌이는 것도 그런 이유 때문이다. 귀에 걸면 귀걸이가 되고, 코에 걸면 코걸이가 될 수 있는 것이 통계다.
   
   사전선거와 당일선거의 차이에 대한 의혹도 단순한 것이 아니다. 우선 21대 총선에서는 사전선거에 참가한 유권자 규모가 26.69%(1174만2064명)로 당일선거 39.52%(1738만4332명)와 거의 대등한 수준으로 늘어났다. 당일선거(45.8%)가 사전선거(12.2%)의 4배에 가까웠던 2016년 20대 총선과는 완전히 달라진 결과다. 이제 사전선거는 더 이상 당일선거의 단순한 일부가 아니다.
   
   사전선거의 규모가 커진 만큼 결과에 대한 통계적 해석도 달라져야 한다. 하나의 모(母)집단이 무작위로 나눠졌다는 해석은 위험할 수 있다. 전국적으로 사전선거에서는 여당의 사전선거 득표율이 당일선거보다 10.60% 높았다. 야당은 거꾸로 사전선거 득표율이 당일선거보다 10.57% 낮았다.
   
   물론 사전선거와 당일선거를 하는 4~5일 사이에 유권자들의 성향이 크게 달라졌다고 보기는 어렵다. 오히려 정치적 성향에 따라 사전선거와 당일선거에 대한 인식이 달랐을 가능성을 고려해야 한다. 여당 지지자들은 자신의 선택을 서둘러 투표로 확인하고 싶어 했고, 야당 지지자들은 마지못해 당일선거까지 기다렸을 가능성이 있다는 뜻이다.
   
   지지자들이 사전선거를 선호하면, 당일선거의 지지율은 어쩔 수 없이 줄어들게 된다. 반대로 사전선거를 꺼리면, 당일선거의 지지율이 늘어난다. 사전선거와 당일선거 지지율의 차이는 옮겨간 지지자 비율의 2배로 증폭된다. 실제 전국적으로 여당 지지자들 중 5.2%가 사전선거로 옮겨갔고, 야당 지지자들은 6.1%가 사전선거를 꺼렸던 것으로 보인다. 선거구당 평균 약 3000명 정도의 지지자들이 사전선거와 당일선거의 선택을 바꾼 셈이다.
   
   절대 무리한 해석이 아니다. 이번 총선이 진행되는 기간의 정치·사회적 상황은 매우 독특했다. 정부·여당에 재앙적인 악재(惡材)로 보였던 코로나19가 느닷없이 더할 수 없는 호재(好材)로 돌변했다. 정치권이 경쟁하듯이 긴급재난지원금을 쏟아붓겠다고 우기는 어처구니없는 상황도 벌어졌다. 유권자들의 성향에 따라 정치적 현실에 대한 인식은 극과 극으로 달랐을 것이다. 그런 인식의 차이가 사전선거와 당일선거의 투표율에도 영향을 미쳤을 가능성을 배제할 수 없다.
   
   이미 끝난 총선에 대한 의혹은 우리 모두에게 몹시 당혹스러운 일이다. 그렇다고 의혹 제기를 무작정 탓할 수는 없다. 선관위가 적극적으로 나서서 상황을 정리해야 한다. 어설픈 보도자료로 해결될 상황은 절대 아니다. 특히 선거 결과 자료를 온라인으로 공개하는 관행은 반드시 지켜져야 하고, 법원의 선거자료 확보에도 협조해야 한다.
   
   통계는 현대사회에서 매우 유용한 정책·의사결정 수단이고, 개인의 차원에서는 실감할 수 없는 사회·경제·정치적 변화를 읽어내는 유일한 수단이다. 사회과학·자연과학·공학·의학에서도 통계는 절대적으로 유용한 수단이다. ‘통계는 거짓말을 하지 않는다’는 신뢰도 그런 유용성에서 비롯된 것이다. 그렇다고 통계가 언제나 신뢰할 수 있는 것은 아니다. 미국의 소설가 마크 트웨인은 세상에 ‘거짓말, 새빨간 거짓말, 그리고 통계라는 거짓말’이 있다고 했다. 엉터리로 만들어진 통계에 의한 폐해와 통계에 대한 엉터리 해석을 경계해야 한다는 매우 소중한 교훈이다.

Copyright ⓒ 조선뉴스프레스 - 주간조선. 무단전재 및 재배포 금지
TOP