
단백질 구조 예측은 물론 새로운 단백질 디자인까지 생성하는 인공지능(AI)이 등장했다. 미국 워싱턴대 단백질설계연구소 생화학과 데이비드 베이커 교수팀이 개발한 ‘로제타폴드 올 아톰(RoseTTAFold All-Atom)’이 그 주인공이다. 이 AI는 ‘로제타’ 시리즈 중 가장 최근에 개발된 AI로, 로제타는 단백질 구조 분석에서 시작해 예측, 설계로까지 이어진 프로그램이다.
단백질 설계까지 하는 최신 ‘로제타’ AI
인체 세포의 핵에서는 유전물질인 DNA를 해독해 필요한 단백질을 만들어내고 있다. 단백질은 생명 반응에 관여하는 생체 분자다. 인체의 단백질은 10만개 정도 되는데, 단백질의 입체 구조가 곧 단백질의 기능을 결정짓기 때문에 생김새가 중요하다.
단백질은 글리신, 히스티딘 등 20여종의 아미노산 단위체로 이뤄져 있다. 20여종의 아미노산 수백~수천 개가 실에 꿴 구슬처럼 사슬로 길게 연결된다. 이 과정에서 사슬이 가장 안정된 상태를 찾을 때까지 복잡하게 얽히고 접히고 또 접히면서 최종 3차원 구조를 형성한다.
따라서 단백질의 복잡한 입체 구조를 알아내야 체내에서 단백질이 어떤 기능을 하는지 알 수 있고, 생체 내 상호작용이 밝혀져야 단백질의 이상으로 생기는 알츠하이머 치매나 파킨슨병 같은 난치성 질환의 원인을 찾거나 치료법을 개발할 수 있다. 그동안 과학자들은 X선이나 핵자기공명, 극저온 전자현미경 등의 장비를 활용해 직접 단백질 구조를 해독해왔다.
하지만 아미노산 분자들은 서로 상호작용하는 방식과 주변 환경 조건에 따라 접히는 모양이 달라진다. 이 때문에 아미노산 하나하나가 어떻게 접혀 단백질이 만들어지는지 밝히기 힘들다. 지금까지 알려진 단백질 중 사람이 구조까지 밝혀낸 것은 1% 정도에 불과하다.
그런데 단백질 구조 예측에 AI를 도입하기 시작하면서 생명공학 분야에서 AI 혁명이 일어나기 시작했다. 결정적 요인은 베이커 교수가 개발한 소프트웨어 ‘로제타’였다. 로제타는 단백질의 3차원 모양을 알아낼 수 있는 소프트웨어다. 베이커 교수는 1990년대 후반부터 아미노산 하나하나를 일일이 분석하며 단백질 구조를 파악해 나가는 연구에 도전했지만, 사람의 힘만으론 감당하기 어려웠다. 계산이 복잡하고 시간도 오래 걸리고 비용도 많이 들었다. 그래서 아예 단백질 구조 자체를 예측하는 알고리즘을 만들고, 이 알고리즘을 기반으로 단백질 분석 모델 시리즈를 개발해왔다.
그러던 중 구글 자회사 딥마인드가 단백질 구조를 파악하는 AI 알파폴드1(2018년)과 알파폴드2(2020년 11월)를 개발하면서 판도가 바뀌었다. 특히 알파폴드2는 전례 없는 정밀도로 천연 단백질 구조를 확인했다. 2022년 7월에는 알파폴드2가 예측한 2억개 이상의 단백질 구조가 공개되기도 했다. 사람은 물론 지구상 거의 모든 동물, 식물, 박테리아 등에서 발견된 단백질 구조였다. 과학자가 단백질 구조 하나를 파악하는 데 수개월에서 수년이 걸렸던 반면 알파폴드2는 수 분~수 시간만에 뚝딱 해치웠다.
이에 베이커 교수는 더욱 분발했다. 알파폴드는 단백질 구조 예측에는 뛰어나지만 새로운 분자를 설계하는 데는 약하다는 것을 파악한 베이커 교수팀이 이 부분에 연구를 집중해 알파폴드2보다 뛰어난 성능의 단백질 접힘을 예측하는 ‘로제타폴드’를 2021년 선보였다. 이어 2022년 단백질 예측을 넘어 설계까지 확실한 ‘로제타폴드 디퓨전’을 공개했다.
로제타폴드는 해독 속도도 빠르지만 정확도도 높았다. 과학자들이 이미 실험을 통해 밝혀낸 단백질 구조를 해독하도록 시험한 결과 90% 이상 일치했다. 국제학술지 ‘사이언스’는 로제타폴드를 2021년 최고의 혁신 연구 성과로 뽑았다.
이어 개발된 ‘생성 모델’ AI 로제타폴드 디퓨전은 자연에서 발견한 적 없는 새로운 유형의 단백질까지 설계했다. 챗GPT처럼 단백질의 모양과 크기, 기능 같은 속성을 텍스트로 입력하면 이에 적합한 새로운 단백질 디자인을 생성하는 원리다. 단백질 데이터베이스를 이용해 아미노산 염기서열을 찾아 읽고, 동시에 아미노산들이 어떻게 연결될지를 예측하고, 이를 토대로 어떤 입체 구조를 띨지 설계해 최종적으로 새로운 단백질을 만들어낸다. 단백질 구조 설계는 궁극적으로 신약 개발로 이어진다.
반세기 난제 단백질·소분자 작용 분석도
그렇다면 가장 최신작인 ‘로제타폴드 올 아톰’은 어떤 기능을 가진 AI일까. 단백질은 물론 DNA, RNA 등 모든 생체 분자를 모델링하고 설계할 수 있는 심층 분석 AI다. 단백질과 다른 비단백질 화합물 사이의 상호작용까지 분석해 완전한 생물학적 구성 요소를 모델링한다.
단백질은 보통 생체 내에서 다른 단백질과 상호작용하면서 그 기능을 발휘한다. 따라서 특정 단백질의 상호작용을 방해할 수 있다. 이때 단백질 간 상호작용을 조절하는, 분자량이 매우 적은 소분자의 작용이 중요하다. 이들 작용을 조절할 수 있는 능력은 질병 치료에 있어 강력한 도구가 될 수 있다. 질병 원인인 표적 단백질 표면에 소분자가 잘 결합하느냐에 따라 질병 치료에 대한 약의 효능이 결정되기 때문이다.
과학자들은 새 질병 치료법 개발을 위해 단백질과 소분자 사이의 상호작용을 분석하려고 연구 중이다. 하지만 소분자에 결합하는 단백질조차 가려내기 어려워 이들 작용을 분석하는 건 인류의 50년 넘는 난제였다. 또 단백질과 단백질이 넓고 얕은 결합 면으로 이뤄져 상호작용하기 때문에 소분자는 강하게 결합하지 못해 소분자를 이용한 약물 개발이 쉽지 않은 실정이다.
로제타폴드 올 아톰은 이런 난제들을 해결할 분자생물학의 게임체인저가 될 것이 분명하다. 이 AI는 소분자에 결합하는 단백질 구별은 물론 단백질에 소분자가 결합할 때 단백질의 접힘 현상까지 알아낸다. 따라서 약물이나 소분자 등에 단백질을 붙였을 때 우리 몸에서 어떻게 약효가 발휘되는지 파악이 가능하다. 즉 단백질을 넘어 다른 생체 분자들까지 분석하는 게 로제타폴드 올 아톰의 핵심 메커니즘이다.
베이커 교수팀은 로제타폴드 올 아톰을 이용해 신약 개발뿐 아니라 자신들만의 과제를 설정해 인류의 당면 문제를 해결하려 하고 있다. 어떤 과학자는 환경 독소를 분해하는 효소를 개발하려 하고, 어떤 과학자는 기후친화적인 시멘트를 생산해 탄소중립에 도움을 주려 한다. 또 다른 과학자는 박테리아 세포로 바이오컴퓨터를 만들려고 한다. 이러다 생명까지 창조하게 되는 건 아닐는지…. 지금 우리는 단백질 생성 AI 기술 혁명의 한가운데 있다.
