ⓒphoto 이경호 영상미디어 기자
ⓒphoto 이경호 영상미디어 기자

울산과학기술원(UNIST) 이세민 교수(바이오메디컬공학과)는 희귀질환을 앓고 있는 4살 남자 아이의 혈액 샘플을 양산부산대병원 희귀질환센터로부터 받았다. 그는 전종근 희귀질환센터장과 협력해서 희귀질환 샘플을 계속 수집하고 있다. 이세민 교수는 많은 사람의 유전체 데이터를 생산하고 분석해, 그로부터 의미 있는 결과를 도출하는 연구를 하는 생명정보학자다.

지난 9월 3일 울산에서 만난 이 교수는 “이름을 알 수 없는 질환이 아직도 너무 많다”라며 “아이가 앓는 희귀질환이 유전체 어디에서 일어난 변이가 원인인지를 확인해왔다”라고 말했다. 그 어린이는 발달지연과 인지장애가 있는데, 뇌 크기가 다른 아이에 비해 좀 크기도 했다. 장애를 눈으로 보면서 임상의사가 “어떤 질환인 것 같다”라고 말하기는 했다. 특정 희귀질환과 유사하다고는 말하지만 “이거다”라고 단정하지는 못했다.

희귀질환 아이의 유전체 분석

이 교수는 어린이의 유전체를 분석했다. DNA 염기서열을 전부 읽었다. 사람 유전체는 대략 30억개의 염기쌍(A, T, G, C라는 네 종류)으로 되어 있다. 아이의 유전체에 변이가 있는 건 어떻게 알 수 있을까? 일반적으로 부모 유전체와 비교한다. 이를 위해 부모의 혈액 샘플을 분석, 그들의 유전체 서열을 읽는다. 아이와 부모의 유전체 데이터를 비교 분석해 부모에게 없는데 아이에게만 그냥 변이가 있다면 아이의 질병은 이 변이와 연관되어 있다고 볼 수 있다. 아이 부모는 아이가 갖고 있는 질환을 앓고 있지 않으니까. 부모에게 없지만, 아이에게만 있는 유전체 변이를 ‘드 노보(de novo) 변이’라고 한다. 새로 생긴 변이라는 뜻이다.

이 교수는 “드 노보 변이가 생각보다 많다. 그리고 질병을 일으킨 변이를 찾기 위해 추가로 일반 한국인의 대규모 유전체 데이터를 참고했다”라고 말했다. 부모에게는 없는 변이라고 해도 한국인에게서 어느 빈도 이상으로 나타나는 변이라면, 그게 아이가 앓고 있는 질환과의 연관성은 낮다고 봐야 한다. 이런 식으로 탐색 범위를 좁혀 나갔다. 유전자 몇 개로 압축되었다. 최종적으로 UBE2H 유전자가 남았다.

UBE2H 유전자가 질병을 일으켰을까? 이럴 때 사용하는 게 동물모델이다. 생쥐를 갖고 실험할 수도 있으나, 생쥐 모델은 유전자 변형 모델을 만들고 확인하는 데 시간이 많이 걸린다. UNIST 동료 교수이자, IBS(기초과학연구원) 유전체항상성연구단 단장으로 일하는 명경재 박사 그룹에 도움을 청했다. 명경재 단장이 이끄는 연구단은 물고기인 제브라피시 모델을 갖고 있다. IBS의 이윤성 박사와 작년 말부터 협업을 시작했다. 들여다보니, 제브라피시도 사람과 거의 똑같은 UBE2H 유전자를 갖고 있었다. 제브라피시에서 UBE2H 유전자의 기능을 제거한 유전자 변형 모델을 만들었다. 그게 없으면 어떻게 되는지를 보는 것이다. 그러면 그 유전자가 하는 기능을 알 수 있다. UBE2H 유전자가 망가진 제브라피시의 발생 패턴을 지켜보았다.

이 교수는 “우리가 기대했던 결과가 나왔다. 제브라피시의 뇌 발생에 변형이 일어났다. 기형적으로 크게 자랐고, 둥글둥글한 모양이 아니고 앞뒤로 길쭉한 형태가 되었다”라고 말했다.

이 교수는 실험을 시작하고 3~4개월 지난 올 초중반에 이 같은 결과를 확인했고 학회에서 내용을 발표했다. 현재 논문을 쓰는 작업을 하고 있다. 이 교수는 “암이나 만성 질환은 유전자 하나로 발병 메커니즘을 설명하기가 힘들다. 그나마 희귀질환은 암보다는 한두 개의 질병 연관 유전자로 설명할 수 있는 경우가 많다”라고 말했다.

UBE2H 유전자의 비밀

UBE2H 유전자는 무엇이고 그 유전자가 만드는 UBE2H 단백질은 어떤 일을 하기에 발병에 관여할까? 단백질은 만들어지고 일정한 시간이 지나면 분해되어 폐기된다. 폐기 대상이 된 단백질에는 유비퀴틴(ubiquitin)이라는 ‘폐기 대상’ 표지가 붙게 된다. UBE2H 단백질이 바로 그런 ‘폐기 대상’ 표지를 붙이는 역할을 한다. 그런데 UBE2H 단백질이 잘 생산되지 않으면 어떻게 되겠는가? 필요 없게 된 단백질이 폐기되지 않고 세포 내에 쌓일 것이다. 세포 안의 생명현상에 문제가 발생하는 건 명확하다.

이 교수는 양산부산대병원 희귀질환센터에서 얻은 어린이 유전체에 들어 있는 UBE2H 유전자는 일반인과 염기서열이 일부 다르며 단백질 서열에도 변화를 일으킨다는 것을 확인했다. 희귀질환도 그렇고 암도 그렇고 유전자 서열이 다르면, 그걸 주형으로 해서 만들어지는 단백질 서열도 바뀐다. 그 결과 단백질 구조가 제대로 만들어지지 않는 경우가 많다. 단백질이 제 기능을 하기 위해서는 3차원 구조가 아주 중요하다. 모양이 제대로 안 나오면 제 기능을 발휘하지 못한다.

그러면 이런 희귀질환은 어떻게 치유될 수 있나? 특정 단백질이 지나치게 많이 생산되는 경우라면 적게 생산되도록 조절하면 된다. 그런데 사람 몸에는 상상할 수도 없이 많은 세포가 있고, 그 세포마다 핵에 유전체가 들어 있다. 그 모든 세포 내 유전체를 어떻게 다 수리할 수 있을까? 이 교수는 “현실적으로는 쉽지 않다. 유전체 교정 기술의 효율과 부작용이 아직은 덜 검증되었다. 궁극적으로는 유전체 교정 기술이 도입될 것이다. 그리고 다수의 세포 내 유전체를 정밀하게 편집하는 것은 훨씬 어렵다. 대신 아마도 세포분화 초기에 시험관 단계에서 유전체를 분석하고 교정해야 하지 않을까 조심스럽게 예측해 본다”라고 말했다.

이세민 교수가 희귀질환의 유전적 근거를 찾아낼 수 있었던 것은 생명정보학의 발달과, 그가 참여한 ‘울산 만 명 게놈 프로젝트’ 덕분이다. ‘울산 만 명 게놈 프로젝트’는 한국인 대상으로 대규모의 유전체 데이터를 얻어낸 첫 번째 사업이다. 울산시와 울산과학기술원 등 많은 연구 기관 및 병원 등이 참여해 2016년부터 2020년까지 5년간 진행했다. 울산 시민을 비롯해 일반인 4700여명과 질병을 갖고 있는 사람 5300명 등 모두 1만44명의 유전체 서열을 읽어냈다. 울산 만 명 게놈 프로젝트는 대규모 한국인 유전체 빅데이터를 얻어냈다는 데 의미가 있다.

5년간 1만44명의 유전체 서열 읽어내

이 교수는 “미국과 일본, 영국 등은 자국인 수백만 명의 유전체 데이터를 얻는 프로젝트를 이미 마친 바 있다”라면서 ‘울산 만 명 게놈 프로젝트’가 성공적으로 끝난 뒤에 외국의 연구자들로부터 데이터를 공유해달라는 요청을 많이 받았다고 했다. ‘울산 만 명 게놈 프로젝트’와 관련, UNIST에서는 박종화 교수가 프로젝트를 시작하고 큰 그림을 제시했다. 이 교수는 “울산시가 산업화 시대 이후의 신성장동력을 찾고 있다. UNIST의 여러 분야 교수들과 미팅을 가졌고, 생명과학자들과 미팅에서 찾은 아이디어가 ‘울산 만 명 게놈 프로젝트’였다. 광역자치단체와 그 지역에 있는 대학이 이렇게 소통을 잘하는 곳이 있을까 싶다”라고 말했다.

프로젝트 결과를 학계에 보고한 첫 번째 논문은 지난해 5월 과학학술지 ‘사이언스 어드밴시스’에 나왔다. 일반인 4700명 중에서 1094명의 유전체를 분석한 결과였다. ‘한국인 1000명에 대한 유전체 지도’였다. 이 연구로 한국인 특유의 유전변이가 무엇인지를 알아내는 성과를 올렸다. 이 교수는 “한국인을 규정하는 유전정보가 무엇이냐는 질문이 있었고, ‘울산 만 명 게놈 프로젝트’는 그것에 대한 답을 내놓았다”라고 말했다. 한국인이 다른 민족과 어떻게 유전체 수준에서 다른지를 그동안 몰랐으나, 이제야 알게 된 것이다.

이세민 교수가 최근에 관심을 두고 있는 분야는 질병, 특히 암과 관련된 유전체 변이가 무엇이냐 하는 것이다. 일반인 유전체 데이터와 질환자의 유전체 데이터를 비교 분석하는 데 연구 초점이 있다. 그런 맥락에서 이 교수는 ‘울산 만 명 게놈 프로젝트’를 통해 나온 데이터를 활용하여 두 번째 논문을 준비하고 있다. 한국인에게서 많이 발생하는 암 질환을 분석하고 있다. 우선 5000여명의 유전체 데이터를 기반으로 하는 논문을 쓰고 있다.

이 교수가 유전체 빅데이터를 기반으로 연구를 하는 데 중요한 것이 슈퍼컴퓨팅 자원이다. 이 교수를 따라 건물 지하로 가니 슈퍼컴퓨팅실이 있었고 그중의 두 라인에 ‘게놈’이라는 글자가 붙어 있었다. 게놈, 즉 유전체 데이터 분석 연구에 사용되는 슈퍼컴퓨터라는 뜻이었다.

유전체 정보는 왜 빅데이터가 되는가? 이 교수에 따르면 한 사람의 유전체 데이터는 보통 크기가 100기가바이트다. 사람 유전체에 들어 있는 염기쌍이 30억개라고 해도, 100기가바이트란 규모는 커 보였다. 왜 이렇게 데이터 크기가 크냐고 물었다. 이 교수는 이렇게 말했다. “30억개 염기쌍을 한 번에 완벽하게 읽어내는 기술은 현재 없다. 아직 서열을 읽을 수 없는 부분도 있고, 읽는다고 하더라도 한 번만 읽어서는 정확도가 매우 떨어진다. 여전히 오류가 있고 기술적인 이슈들이 있다. 그래서 현재는 30번 이상 읽어서 유전체 데이터를 생산한다. 그 정도는 되어야 의미 있는 분석이 가능하다.”

톰 블런델 교수와 함께. ⓒphoto 이세민
톰 블런델 교수와 함께. ⓒphoto 이세민

암 유전체 지도 구축 프로젝트

그는 대규모 일반인 유전체 분석 외에 또 다른 주요 연구 분야로, 암 유전체 분석을 많이 한다. 이 교수는 “단일세포(single cell) 수준의 유전체 변화를 암과 관련해서 살펴보고 있다. 암의 발생과 진화를 들여다보고 있다”라며 다음과 같이 설명했다. “암이 어떻게 발생하고 진행하는지를 오믹스(Omics) 데이터라고 부르는 유전체나 후성유전체 등 다양한 데이터를 통합·분석해서 이해하려고 한다. 이를 위해 임상학자와 공동 연구를 하고 있다. 암 치료와 연관된 인자를 찾기 위해 역시 오믹스 데이터를 활용하며 단일세포 수준에서 유전변이나 유전자 발현 패턴 변화를 관찰할 수 있는 기술이 많이 나와 있다. 이런 기술들을 적극 이용하고 있다.”

그가 최근 관심 있게 보는 암은 혈액암이다. 장기에서 발생하는 암(고형암)의 경우, 보통 동일 환자의 혈액이나 정상 조직을 얻어 암과 연관된 체세포 변이가 무엇인지를 찾는다. 그러나 혈액암은 골수세포에서 발생하는 유전변이가 원인이다. 혈액은 온몸을 돌아다니기 때문에, 체세포 변이 확인을 위해 비교할 다른 마땅한 샘플이 없다. 유전변이가 일어난 혈액과 그렇지 않은 혈액을 분리, 비교할 수가 없다는 말이다. 이런 경우 일반 한국인의 유전체 빅데이터가 유용하다. 다른 사람의 빅데이터와, 혈액암 환자의 유전체 데이터를 비교하면 발암 원인이 된 변이를 유전체 수준에서 추적할 수 있다. 이 교수는 “그럼에도 암의 원인을 찾아내는 건 지극히 어렵다. 연관된 수없이 많은 변이가 있기 때문”이라고 말했다.

암은 한두 유전자가 아니라 많은 유전자에 의해 발생한다. 이 교수는 “우리가 일반적으로 생각하는 것보다 암은 복잡하다”라고 말했다. 특정 유전자를 범인으로 지목하기 어려운 경우가 대부분이고, 임상 샘플을 분석해도 도대체 암이 왜 발생했는지 이해가 되지 않는 경우가 많다. 그럼에도 불구하고 암에 의해 발생한 변이를 찾는 데 있어 일반인 유전체 빅데이터는 활용성이 높다. 물론 아직 원인을 찾아 개별 유전자 차원까지 추적해 내려간 건 아니다.

이세민 교수는 서울대 생명과학부 96학번이다. 자연과학부로 들어갔다가 3학년 때 생물학과를 선택했다. 생물학이 제일 잘 맞겠다고 생각했다. 그는 학부시절에 컴퓨터과학에 관심이 많았다. 군대에 갔다가 복학했더니 생물정보학이 뜨고 있었다. 컴퓨터 보급과 발달, 생물학 데이터의 축적이 그 배경이었다. 외국에서는 1980년대에 생물정보학이 부상했지만 한국은 10여년은 늦었다. 생물정보학을 배울 지도교수를 찾아 카이스트로 갔다. 새로 부임한 박종화 교수(현 UNIST 교수)에게 갔고, 이세민 대학원생은 박 교수의 거의 첫 번째 대학원생이 되었다. 석사 2년간 단백질 구조와 관련된 생명정보학을 공부하고, 2006년 영국 케임브리지대학 생화학과로 박사 유학을 떠났다. 생화학과의 지도교수는 톰 블런델(Tom Blundell) 경이었다. 그는 단백질구조 연구자였고, 탁월한 연구성과를 인정받아 왕실로부터 ‘경(Sir)’이라는 작위를 받았다. 톰 블런델 경은 큰 실험실을 갖고 있었다. 이세민 박사과정 학생은 단백질과 핵산(DNA·RNA)이 상호작용하는 패턴을 연구했다. 상호작용이라니 무슨 뜻일까?

이 교수는 “단백질은 세포 내에서 많은 기능을 하는데, 그중 중요한 하나는 DNA나 RNA와 같은 핵산에 결합하는 거다. 즉 상호작용한다. 특정 유전자를 읽어내 단백질을 만들어내게 되는데, 그걸 전사라고 한다. 유전자의 전사를 조절하는 전사인자라고 불리는 단백질들이 있다. 전사인자는 유전체상의 특정 위치에 결합해 전사를 조절한다. 때문에 전사인자의 결합을 예측하는 게 중요하다. 그런 걸 연구했다. 너무 생화학적인 이야기인데, 당시는 많이 하던 연구 분야다”라고 말했다. 그는 연구 결과를 정리해서 2009년 학술지 ‘생물정보학(Bioinformatics)’에 두 편의 논문을 보고할 수 있었다. 이 교수는 “학술지 사이언스나 네이처에 논문을 쓰지는 못했지만 나름 재미있는 연구였다. 단백질 구조와 단백질을 이루는 아미노산 서열이 어떻게 진화해왔는지를 이해할 수 있었다”라고 말했다.

그는 박사과정을 마치고 박사후연구원으로 하버드대학에서 일하면서 사이언스에 표지논문을 쓰게 된다. 사이언스는 최상위 과학학술지다. 일은 이렇게 진행됐다. 케임브리지대학 박사 4년 차에 아버지가 암으로 돌아가셨다. 이 충격이 그의 연구 방향을 바꿨다. 2011년 대서양을 건너 하버드대학 의대에 가면서 암 유전체 연구를 하기 시작했다. 하버드 의대 생명의료정보학과의 한국계 학자 피터 박(Peter J. Park) 교수의 실험실에서 새로운 주제를 파고들었다.

피터 박 교수가 케임브리지의 생어연구소와 아이작뉴턴수리과학연구소에서 강연했을 때 그의 강연에 간 게 인연이 되었다. 피터 박 교수 그룹은 암 유전체와 후성 유전체라는 두 가지 테마를 연구했다. 이세민 박사후연구원은 2016년 1월까지 5년간 하버드대학에서 유전체 연구를 했다.

피터 박 교수는 ‘암 유전체 지도(The Cancer Genome Atlas·TCGA)’ 구축 프로젝트에 참여하고 있었다. 30여개의 암종에 대해 종류별로 암환자 수백 명의 유전체, 전사체, 후성 유전체, 단백체 등 다양한 오믹스 데이터를 생산하고 분석하는 연구였다. 미국과 캐나다의 20여개 연구기관이 참여한, 굉장히 큰 컨소시엄 프로젝트였다. 피터 박 실험실에서 이세민 박사후연구원이 TCGA를 담당했으며 이 일을 하면서 암 유전체 분석에 경험을 많이 쌓게 되었다.

이때만 해도 세포 하나 차원에서 데이터를 생산하고 분석할 수 있는 기술이 없었다. 조직을 떼어 분석하는 정도였다. 그러니 조직에 있는 많은 세포 중 어느 세포에 어떤 변이가 있는지는 알 수 없었다. 이세민 박사후연구원은 단일세포 차원에서 체세포변이를 알아보는 작업을 시작했다. 하버드의대 부설 어린이병원의 크리스토퍼 월시 교수(신경의학자)가 피터 박 교수에게 공동연구를 제안한 게 출발점이었다. 사망자가 기증한 뇌조직을 분양받았다. 조직에서 세포 하나하나를 분리했다. 분리된 세포들을 다 별도로 전장유전체(whole-genome) 분석을 해냈다. 당시에 막 나온 DNA증폭기술(MDA)을 사용했다. 이게 2015년 10월 학술지 사이언스의 표지논문이 되었다. 논문 제목은 ‘신경세포 하나에서 체세포변이는 발달(development)과 전사 패턴의 역사를 따른다’라는 내용이었다. 그가 발견한 연구 내용은 흥미로웠다. 설명을 하기에는 지면이 부족하다. 그리고 다음해인 2016년 초 울산과학기술원 교수가 되었다. 같은 과에는 카이스트 석사 지도교수인 박종화 교수가 있다. 그리고 박 교수가 시작한 ‘울산 만 명 게놈 프로젝트’에 참여함으로써 그는 한국에서의 연구를 본격적으로 시작했다.

최준석 선임기자
저작권자 © 주간조선 무단전재 및 재배포 금지