150세 가능한가?
genomics🟢 입문Nature

AlphaFold — AI로 50년 난제 '단백질 구조 예측' 해결하다

DeepMind의 AlphaFold2가 단백질 아미노산 서열만으로 3D 구조를 원자 수준 정확도로 예측하는 데 성공했습니다. 50년간 미해결 과제였던 단백질 폴딩 문제를 AI로 돌파한 역사적 연구입니다.

2023-07-15·5 min read
저널Nature
발표일2023-07-15

왜 중요한가?

단백질은 생명의 기계입니다. 우리 몸속 효소, 항체, 수용체 등 수만 가지 단백질이 각자의 3차원 형태에 따라 특정 기능을 수행합니다. 문제는 단백질이 어떤 모양으로 접히는지를 실험으로 알아내는 데 수개월에서 수년이 걸린다는 것입니다. 현재까지 구조가 밝혀진 단백질은 약 10만 개에 불과하지만, 알려진 단백질 서열은 수십억 개에 달합니다.

1972년 노벨 화학상 수상자 크리스티안 안핀센은 단백질의 3D 구조가 아미노산 서열에 의해 결정된다고 주장했습니다. 이론상 서열만 알면 구조를 계산할 수 있어야 하는데, 이 문제를 50년간 풀지 못했습니다. DeepMind의 AlphaFold2는 이 난제를 딥러닝으로 완전히 돌파했습니다.

핵심 성과: CASP14 단백질 구조 예측 대회에서 AlphaFold2는 실험으로 측정한 구조와 거의 동등한 정확도를 달성했습니다. 참가자들 사이에서 "게임이 끝났다"는 평가가 나올 만큼 압도적이었습니다.

연구 방법

AlphaFold2는 진화 정보와 물리·생물학적 지식을 딥러닝 아키텍처에 통합했습니다.

  • 다중 서열 정렬(MSA): 진화적으로 관련된 수백만 개의 단백질 서열을 비교해 어떤 위치의 아미노산이 함께 변하는지 학습
  • Evoformer 블록: MSA와 잔기 쌍 정보를 48번 반복 처리하며 공간적 관계를 학습
  • 구조 모듈: 각 아미노산의 회전·위치를 직접 예측해 물리적으로 타당한 구조 생성
  • 재활용(recycling): 예측한 구조를 다시 입력으로 사용해 정확도를 반복 개선

훈련 데이터는 PDB 17만 개 구조와 UniRef90 등 거대 서열 데이터베이스를 활용했습니다.

핵심 발견

  • CASP14 97개 표적 단백질 중 대다수에서 실험 구조와 구분하기 어려운 수준의 예측 달성
  • 유사한 구조가 알려지지 않은 "아무 힌트 없는" 단백질에서도 높은 정확도 유지
  • 새 단백질 구조 예측에 몇 분~몇 시간 소요 (실험 대비 수만 배 빠름)
  • 각 아미노산의 예측 신뢰도 점수(pLDDT)를 함께 제공해 불확실 영역 파악 가능
  • 2022년 2억 개 이상 단백질 구조 데이터베이스 무료 공개

우리 삶에 미치는 영향

2022년 DeepMind는 AlphaFold2를 활용해 2억 개 이상의 단백질 구조 데이터베이스를 무료 공개했습니다. 신약 개발자들은 이 데이터베이스를 활용해 암·알츠하이머·항생제 내성균 등 난치병 치료제 후보를 탐색하는 시간을 획기적으로 단축하고 있습니다. 구조 기반 신약 설계, 효소 공학, 기초 생명과학 전반에서 AlphaFold는 이미 필수 도구가 됐으며, 2024년 노벨 화학상이 이 연구에 수여됐습니다.

📄 원문: John Jumper, Richard Evans, Alexander Pritzel et al., "Highly accurate protein structure prediction with AlphaFold", Nature, 2021. DOI: 10.1038/s41586-021-03819-2

AlphaFold — AI가 50년 된 수수께끼를 풀어버렸어요

단백질이 뭔데 이게 그렇게 중요해요?

우리 몸속에는 수만 가지 단백질이 있어요. 효소, 항체, 호르몬 수용체... 이 단백질들이 어떤 모양으로 접히느냐에 따라 기능이 완전히 달라져요. 열쇠처럼 딱 맞는 모양이어야 문을 열 수 있는 거죠.

문제는 이 모양을 알아내는 게 엄청 힘들다는 거예요. 실험실에서 단백질 하나의 3D 구조를 밝히는 데 보통 수개월에서 수년이 걸려요. 지금까지 알려진 단백질 서열은 수십억 개인데, 구조가 밝혀진 건 고작 10만 개 정도예요. 나머지는 "아마도 이렇게 생겼겠지~"하고 추측하는 상황이었죠.

AI가 이걸 몇 분 만에 풀어버렸다고요?

DeepMind(구글 자회사)의 AlphaFold2가 2021년에 등장하면서 상황이 완전히 바뀌었어요.

AlphaFold2는 단백질의 아미노산 서열(A-B-C-D 같은 레고 블록 순서)만 주면 3D 구조를 원자 수준의 정확도로 예측해줘요. 그것도 몇 분~몇 시간 안에요. 실험의 수만 배 빠른 거죠.

연구자들 반응: CASP14라는 국제 구조 예측 대회에서 AlphaFold2가 2위와 엄청난 격차로 1위를 차지하자, 참가자들 사이에서 "게임이 끝났다"는 말이 나왔어요.

어떻게 이게 가능한 거예요?

AlphaFold2의 핵심 비결은 진화 정보를 쓰는 거예요.

수억 년의 진화 동안 서로 관련된 단백질들이 어떻게 변해왔는지 데이터를 학습했어요. 같이 변하는 아미노산 쌍은 3D 공간에서도 가까이 있을 가능성이 높아요. 마치 같이 춤추는 두 사람은 서로 가깝다는 걸 알 수 있는 것처럼요.

여기에 물리·화학 법칙을 더하고, 예측한 구조를 또 입력으로 넣어 계속 다듬는 방식으로 정확도를 높였어요.

우리한테 어떤 영향이 있어요?

2022년에 DeepMind가 2억 개 이상의 단백질 구조 데이터베이스를 무료로 공개했어요. 전 세계 연구자들이 이걸 활용해서 암 치료제, 알츠하이머 약, 항생제 내성 해결책 등을 연구하고 있어요.

신약 개발 속도가 확 빨라지고 있다고 생각하면 돼요. 그리고 이 연구는 2024년 노벨 화학상을 받았어요. 그만큼 엄청난 발견이에요.

공유하기X (트위터)페이스북

📚 관련 논문