ⓒphoto 양수열 영상미디어 기자
ⓒphoto 양수열 영상미디어 기자

석차옥 서울대 화학과 교수에게는 아우라가 있다. 그는 1989년 대입 학력고사에서 여자 수석을 차지했다. 그리고 서울대 화학부에 임용된 첫 번째 여성 교수다. 이전에도 여성 교수가 있었으나, 다른 과에서 옮겨온 경우다. 지난 7월 21일 찾아간 석 교수의 서울대 연구실은 조용한 다실과 같았다. 다기 세트가 원목테이블 위에 단정하게 놓여 있었다. 신발을 벗고 들어갔다. 방석에 앉아 질문을 시작했다.

석 교수를 설명하는 키워드를 물었다. “단백질 구조 예측”이라는 답이 나왔다. 그리고 그는 말을 멈췄다. 다른 키워드는 없느냐는 질문에 “계산화학” “컴퓨터 기반 신약 개발”이라고 답하고 “계산화학을 이용해서 신약 개발을 위한 도구인 프로그램을 개발한다. 이론화학 혹은 계산화학이 이제는 실생활에 도움이 되는 일을 해야 한다고 생각한다”라고 덧붙여 설명했다.

그는 자신의 연구를 분야로 분류하기보다는 해결하려는 문제 중심으로 말하려고 했다. 그는 “문제를 풀기 위해 여러 도구가 필요한 것이고, 내가 풀고자 하는 문제는 원자 수준에서의 생명현상 이해”라고 말했다. 그는 이어 “생명현상의 가장 근본적인 얘기를 하다 보면 단백질 구조가 나온다. 단백질 분자의 기능을 알기 위해서는 구조를 알아야 한다”라고 설명했다.

단백질 구조를 알아내는 실험 방법 세 가지가 지금까지 노벨화학상을 받았다. 1962년 엑스선 결정학, 2002년 핵자기공명 분광학, 2017년 저온전자현미경이다. 인류가 처음으로 구조를 알아낸 단백질은 헤모글로빈과 미오글로빈이다. 영국 케임브리지대학에 있던 막스 페루츠와 존 켄드루가 엑스선 결정학으로 1948년에 구조를 알아냈다. 미오글로빈은 근육에서 산소를 운반하는 단백질이고, 헤모글로빈은 혈관 속에서 산소를 운반한다. 석 교수는 “몸속에 있는 분자가 얼마나 복잡하고 희한한 구조로 되어 있으면서 기능을 하는지 그때 처음 알려졌다. 이후 물리화학자들은 단백질 구조를 예측하려고 애썼다. 조금씩 진보는 있었지만 지금까지도 완전히 해결되지 않았다. 내 연구가 그 연장선상에 있다”라고 말했다.

단백질 구조를 알아내는 방법

단백질 구조를 알아내는 세 가지 방법은 단백질을 갖고 분자생물학적으로 실험하는데 시간이 오래 걸리고 비용이 많이 든다. 짧게는 몇 달이고, 어떤 건 복잡해서 박사학위를 하는 학생이 4~5년을 투자해도 알아내지 못하기도 한다. 단백질 구조를 알아내는 데 시간이 걸리면 때로 문제가 된다. 현재 지구촌을 마비시킨 코로나19 바이러스 사태를 보자. 백신이나 치료제를 개발해야 하는데, 단백질 구조를 알아내는 데 몇 년이 걸린다면 어떻게 하겠는가? 그래서 시간을 단축하기 위한 방법이 필요하다.

석 교수는 “단백질은 아미노산으로 이뤄졌다. 아미노산 사슬이 단백질이다. 아미노산 서열을 알아내기는 쉽다. 빠르고 저렴하게 확인할 수 있다. 그렇다면 아미노산 서열 정보로부터 단백질의 구조를 알아낼 수 있으면 좋을 것이다”라고 말했다. 실험가가 단백질 구조를 실험적인 방법으로 알아내는 걸 ‘구조 결정’이라고 하고, 아미노산 서열 정보를 갖고 이론가가 구조를 알아내는 걸 ‘구조 예측’이라고 한다. 석 교수는 단백질 구조 예측을 한다. 컴퓨터 프로그램에 아미노산 서열을 집어넣고 계산한다.

아미노산 사슬인 단백질은 어떻게 해서 독특한 구조들을 갖게 되는 것일까? 평균적인 크기의 단백질은 아미노산 300개 정도가 이어져 있다. 아미노산 20가지는 성질이 조금씩 다르다. 서로 좋아하기도 하고, 멀리하기도 한다. 아미노산 간 상호작용이 있다. 그런 상호작용으로 인해 아미노산이 한 줄로 길게 늘어선 단백질 구조를 갖게 된다. 이걸 ‘단백질 접힘(Protein Folding)’이라고 한다.

“물리화학적인 입장에서 보면 단백질을 이루는 원자들의 상호작용에 의해 단백질은 삼차원 구조가 된다. 그런 에너지를 계산해서 어떤 단백질 구조가 되는지를 예측하는 것이 나의 꿈이다.” 석 교수를 물리화학자라고 보는 사람이 있는데, 이는 그의 연구가 원자의 상호작용이라는 물리학에 근거하고 있기 때문이다.

컴퓨터로 단백질 구조 예측을 하는 것과 신약 개발과는 어떻게 연결되어 있을까? 코로나19 바이러스는 과거에 유행했던 사스 바이러스의 변종이다. 이 경우 사스로부터 연구를 시작할 수 있기에 단백질 구조 예측으로 코로나19 바이러스에 들어 있는 단백질(모두 20가지) 구조를 쉽게 파악할 수 있다. 코로나19 바이러스 표면에 스파이크(spike) 단백질이라고 있다. 이게 인간 세포막의 첫 번째 관문을 뚫는다. 인간 세포막의 ACE2 단백질을 속여서 세포 안으로 들어간다. 예컨대 그걸 못 하게 하면 된다. 스파이크 단백질에 다른 단백질을 붙이는 식으로 약을 디자인할 수 있다.

석 교수는 컴퓨터에 아미노산 서열 정보를 집어넣으면 빠르면 1~2시간, 늦어도 며칠 안에는 단백질 구조 예측 결과가 나온다고 했다. “자유에너지라고, 열역학적인 상태의 안정성을 결정하는 게 있다. 자유에너지는 엔탈피와 엔트로피 효과 두 개가 섞여 있는 거다. 단백질 구조가 바뀔 때 그것의 자유에너지가 어떻게 변하는지 정확하게 계산할 수 있으면 가장 낮은 자유에너지를 찾을 수 있다. 가장 안정된 상태를 알아낼수 있다. 그런데 여기에 두 가지 문제가 있다. 주어진 구조의 자유에너지를 정확히 계산할 수 있느냐와, 가능한 여러 상태를 모두 다 계산할 수가 있느냐, 특히 안정된 상태의 구조를 찾아낼 수 있느냐 하는 것이다.”

설명이 좀 어렵다. 석 교수가 단백질 구조와 바둑 두기를 비교해서 얘기해 준다. 바둑판에 흰 돌과 검은 돌을 둘 수 있는 경우의 수는 상상을 초월한다. 단백질은 그보다 더하다고 했다.

“단백질을 이루는 아미노산 하나하나는 어떤 각도로든지 꺾일 수 있다. 360도 중 어느 각도로도 아미노산이 돌아간다. 물론 그런데도 통상적으로는 꺾이는 각도가 있고, 그 가짓수는 3개다. 모양으로 설명하면 나선 모양의 알파헬릭스(α helix)와, 길게 펼쳐진 베타가닥(β strand), 그리고 모양이 일정하지 않은 코일이다. 노벨상을 두 번 받은 미국의 라이너스 폴링은 알파헬릭스를 예측했으며, 단백질 구조 예측을 의도하지 않았으나 결과적으로 맨 처음 한 바 있다. 이렇게 복잡하지만 위에서 말한 단백질 구조가 많이 가지는 패턴이 있어서 연구에 활용할 수 있다. 나의 그룹은 구조 예측도 하고 분자 설계 연구도 같이하고 있다.”

2018년 CASP 대회에서 석차옥 교수 그룹이 잘 예측한 단백질 복합체 구조들. 보라색이 석 교수 그룹이 예측한 구조이고, 노란색은 실험에서 확인된 구조다. 거의 같다. 자료 : 석차옥 교수
2018년 CASP 대회에서 석차옥 교수 그룹이 잘 예측한 단백질 복합체 구조들. 보라색이 석 교수 그룹이 예측한 구조이고, 노란색은 실험에서 확인된 구조다. 거의 같다. 자료 : 석차옥 교수

단백질 구조 예측 최정상 그룹

그에게 하고 있는 연구를 소개해 달라고 했다. 지금까지는 그의 연구 분야와 관련한 일반적인 얘기를 들었기 때문이다. 석 교수는 “이 분야에서 획기적인 게 있다”면서 단백질 구조 예측 연구자들이 참가하는 CASP라는 대회 얘기를 들려줬다. CASP는 ‘단백질 구조 예측을 위한 중요 방법 평가(Critical Assessment of techniques for protein Structure Prediction)’의 영어 약자다. 미국 메릴랜드대학의 존 몰트(John Moult) 교수(세포생물학 및 분자유전학과 소속)가 1994년에 시작했다.

석 교수 설명을 들어본다. “구조생물학자에게서 가장 최근에 알아낸 단백질의 아미노산 서열을 제공받는다. 이 정보를 구조 예측 연구자에게 주고 주어진 시간 내에 단백질 구조를 예측하라는 거다. 실제 실험실에서 알아낸 구조와, 예측한 구조가 맞는지를 평가하는 대회다. 2년에 한 번씩 짝수 해에 열린다. 경쟁 분야는 상당히 여러 개가 있다. 세계적으로 100~200개 팀이 참가한다. 지난 대회는 2018년에 있었고, 올해는 지금 우리 학생들이 이 문제를 풀고 있다. 우리 그룹은 2010년부터 참가했고, 항상 최정상이다.”

화학자들이 자존심을 걸고 이런 경쟁 대회에 참가한다는 게 믿기지 않았다. 그 이유에 대해 석 교수는 “이 대회에 참가해서 좋은 성적을 받아야 커뮤니티에서 인정받는 분위기가 있다. 구조 예측을 하는 연구자라면 CASP에 나가지 않으면 안 된다”라고 했다.

3차원 단백질 구조 예측은 주요한 분야이다. 템플릿(Template·주형)에 기반한 모델링과 템플릿이 없는 모델링 두 가지 분야가 있다. 그리고 구조정밀화 등 몇 가지 분야가 더 있다. 이들 분야가 어떤 접근법인지에 대해 석 교수로부터 설명을 들었다.

“열역학적인 계산을 통한 접근을 할 수 있으면 좋지만, 아직 불가능하다. 그 대신 가장 정확한 방법은 기존 정보를 이용하는 거다. 이걸 템블릿 기반 예측이라고 한다. 아미노산 서열이 비슷한 단백질 구조를 알고 있다면, 그걸 갖고 주어진 새로운 단백질의 구조를 예측하려 한다. 이때 알려진 단백질 구조를 템플릿, 즉 주형으로 보는 것이다.”

AI ‘알파폴드’와 경쟁

석 교수가 두 번째 경쟁 분야인 ‘템플릿이 없는 모델링’을 설명하면서 구글의 AI회사인 딥마인드 이야기를 꺼냈다. 딥마인드는 2016년 인공지능 바둑 프로그램인 알파고를 만들어 바둑 세계를 제패한 바 있다. 이세돌 9단을 물리치고 인간 이상의 실력을 자랑했다. 딥마인드가 단백질 구조 예측에 도전했단다. 딥마인드가 만든 단백질 예측 AI 이름은 ‘알파폴드’. 알파폴드에 단백질 구조 예측을 공부하도록 딥러닝 학습을 시켰다. 알파폴드는 2018년 CASP에 출전했다. 석 교수는 “딥마인드의 알파폴드에 충격받았다. 나는 당시 행사의 심사위원이었다. 스위스 바젤에서 대회가 열렸다. 한 팀의 점수가 매우 좋게 나와서 보니 알파폴드였다”라고 말했다.

템플릿 없는 모델링 역시 기존의 정보를 이용해서 구조 예측을 하기는 한다. 템플릿 기반 모델링이 ‘알려진 단백질의 구조 정보’를 이용했다면, 이 방식은 알고자 하는 단백질의 아미노산 서열 정보를 이용한다. 알파폴드가 그걸 잘한 것이다. 석 교수는 “단백질 구조 전문가인 데이비드 존스(영국 유니버시티칼리지 런던대학 교수)가 자문을 했고, 구글의 단백질 시뮬레이션 연구자인 존 점퍼가 알파폴드 팀에서 일한다”라고 말했다.

그는 “템플릿 없는 모델링 분야에서 물리화학적인 방법으로 단백질 구조 예측을 잘하는 게 나의 꿈이다. 아직은 기대만큼 잘 안되고 있다”라고 말했다. 석 교수는 “그걸 잘하는 그룹이 있다. 미국 워싱턴대학의 데이비드 베이커 교수다. 단백질 구조 예측을 말하면서 그를 빼놓을 수 없다. 그는 이 분야의 지존이다. 노벨화학상 후보로 거론된다”라고 말했다.

CASP 주최자인 존 몰트 교수는 물리화학이 단백질 구조 예측에 아주 중요하다고 생각한다. 물리학을 구조 예측에 활용하는 것이 관건이다. 석 교수는 “왜냐면 물리화학을 해야 지금까지 밝혀지지 않은, 정보가 없는 새로운 걸 예측할 수 있기 때문”이라고 말했다. 그래서 추가된 CASP의 새 카테고리가 ‘구조정밀화(refinement)’이다. 석 교수는 “우리 그룹이 템플릿 기반 모델링도 잘하지만 ‘구조정밀화’ 부문을 특히 잘한다”라고 자랑했다.

구조정밀화는 유사한 단백질의 구조 정보로부터 예측한 구조(템플릿 기반 모델링)든, 해당 단백질을 이루는 아미노산 서열 정보를 갖고 얻어낸 단백질 구조 예측 결과(템플릿 없는 모델링)든 단백질 구조 예측 결과가 있다면, 거기서 시작한다. 즉 이 같은 구조 예측 결과를 물리화학적인 방법을 사용해서 개선할 수 있느냐를 묻는다. 석 교수는 “연구자가 가진 물리화학적인 실력을 테스트할 수 있는 시험대”라고 말했다.

물리화학적인 방법으로 단백질 구조를 보다 정밀화하는 데는 두 가지가 있다. 열역학적인 계산을 하는 방법이 그 첫 번째다. 석 교수 그룹의 연구 방법론이다. 앞에서 분자의 가장 안정된 자유에너지를 찾아내는 게 중요하다는 얘기를 석 교수에게서 들은 바 있다. 바로 그렇게 연구하는 것이다. 구조정밀화 연구를 하는 커뮤니티 내 일부 다른 그룹은 ‘분자동역학 시뮬레이션’을 한다고 했다. 석 교수는 “이 방법은 시간이 좀 더 걸린다”라고만 말했다.

“목표의 20~30%밖에 안 왔다”

예컨대 ‘구조정밀화’ 부문에서는 자동화 서버를 갖고 경쟁을 하게 된다. CASP에 대회 참가 등록을 해놓으면 주최 측 컴퓨터에서 석 교수 그룹 서버로 풀어야 할 문제가 날아온다. 문제가 도착하면 석 교수 그룹의 자동화 서버가 문제를 풀고, 답을 3일 안에 보낸다. 석 교수는 “서버를 이용해 구조정밀화 부문에 출제된 단백질의 시작구조를 향상시킬 수 있는 유일한 방법을 우리가 갖고 있다”라고 말했다. 최근 3회 연속 이 부문에서 1등을 했다.

석 교수는 그간 자신의 논문 중에서 인용이 많이 되는 건 2012년 ‘구조정밀화 방법’ 논문일 거라고 했다. 석 교수 그룹이 개발한 단백질 구조 예측 프로그램들이 있다. ‘갤럭시’라는 이름으로 시작한다. 갤럭시 TBM(템플릿 기반 모델링 분야), 갤럭시 Refine(단백질 구조정밀화 분야), 갤럭시 dock(결합, 즉 docking 분야 연구)이다.

석 교수는 이때까지 ‘결합’ 이야기는 하지 않았다. 그는 “단백질 구조 예측에 결합(docking) 연구가 중요하다. 결합 때 단백질 구조가 바뀔 수 있다. 어떤 상대를 만나느냐에 따라 상호작용이 달라지기 때문이다. 이런 건 정보 기반으로 예측할 수 없다. 물리화학 기반으로 상호작용을 고려한 계산을 해야 한다”라며 두 가지 결합 연구가 자신의 다른 주요 연구 분야라고 했다. 그러니 그의 주요 연구 분야는 세 개다. CASP 대회 참석으로 설명한 단백질 구조 예측, 그리고 단백질-리간드 결합(docking), 단백질-단백질 결합이다. 그는 “이 세 분야에서 최고 수준으로 일하고 있다”라며 단백질-단백질 결합 연구 부문에도 CASP와 비슷한 CAPRI라는 대회가 있다고 했다.

석 교수는 서울대 석사과정을 다니다가 1994년 미국 시카고대학으로 가서 박사학위를 했다. 그는 고체상전이를 연구했다고 말했다. 구리금합금(Cu3Au)과 은요오드합금(AgI)의 표면에서 일어나는 상전이를 봤다고 했다. 1998년에 학위를 받고 시카고대학의 다른 교수 실험실에서 박사후연구원으로 일했고, MIT로 갔다가 그곳에서 6개월 만에 샌프란시스코-캘리포니아대학(UCSF)으로 옮겼다. UCSF의 단백질 접힘 이론 연구자인 캔 딜 교수 실험실에서 4년간 일하며 ‘템플릿 기반 모델링’과 관련이 많은 ‘루프(loop) 모델링’이라는 걸 시작했다. 그리고 2004년 2학기부터 서울대 교수로 일하기 시작했다.

석차옥 교수는 “최종적으로 하고 싶은 일은 생명현상의 근원 이해와, 더 나아가 질병을 치료하는 기술 개발이다. 그런데 이는 기존의 양자화학이나 통계열역학으로 풀 수가 없다. 그래서 나는 그게 화학이든, 물리학이든, 정보학이든, 인공지능이든 간에 다양한 방법을 동원하여 풀어보려고 한다”라고 말했다. 그런 목표까지 얼마나 접근했는지 궁금했다. 석 교수는 차분한 목소리로 “100점 만점이라면 20~30점밖에 안 된다”라고 말했다.

석 교수는 자녀가 셋이다. 그를 아는 한 화학자는 “아이 셋을 키우면서 세계정상의 연구를 하는 석 교수가 놀랍다”라고 말했다.

최준석 선임기자
저작권자 © 주간조선 무단전재 및 재배포 금지