AlphaFold — AI로 50년 난제 '단백질 구조 예측' 해결하다
DeepMind의 AlphaFold2가 단백질 아미노산 서열만으로 3D 구조를 원자 수준 정확도로 예측하는 데 성공했습니다. 50년간 미해결 과제였던 단백질 폴딩 문제를 AI로 돌파한 역사적 연구입니다.
왜 중요한가?
단백질은 생명의 기계입니다. 우리 몸속 효소, 항체, 수용체 등 수만 가지 단백질이 각자의 3차원 형태에 따라 특정 기능을 수행합니다. 문제는 단백질이 어떤 모양으로 접히는지를 실험으로 알아내는 데 수개월에서 수년이 걸린다는 것입니다. 현재까지 구조가 밝혀진 단백질은 약 10만 개에 불과하지만, 알려진 단백질 서열은 수십억 개에 달합니다.
1972년 노벨 화학상 수상자 크리스티안 안핀센은 단백질의 3D 구조가 아미노산 서열에 의해 결정된다고 주장했습니다. 이론상 서열만 알면 구조를 계산할 수 있어야 하는데, 이 문제를 50년간 풀지 못했습니다. DeepMind의 AlphaFold2는 이 난제를 딥러닝으로 완전히 돌파했습니다.
핵심 성과: CASP14 단백질 구조 예측 대회에서 AlphaFold2는 실험으로 측정한 구조와 거의 동등한 정확도를 달성했습니다. 참가자들 사이에서 "게임이 끝났다"는 평가가 나올 만큼 압도적이었습니다.
연구 방법
AlphaFold2는 진화 정보와 물리·생물학적 지식을 딥러닝 아키텍처에 통합했습니다.
- 다중 서열 정렬(MSA): 진화적으로 관련된 수백만 개의 단백질 서열을 비교해 어떤 위치의 아미노산이 함께 변하는지 학습
- Evoformer 블록: MSA와 잔기 쌍 정보를 48번 반복 처리하며 공간적 관계를 학습
- 구조 모듈: 각 아미노산의 회전·위치를 직접 예측해 물리적으로 타당한 구조 생성
- 재활용(recycling): 예측한 구조를 다시 입력으로 사용해 정확도를 반복 개선
훈련 데이터는 PDB 17만 개 구조와 UniRef90 등 거대 서열 데이터베이스를 활용했습니다.
핵심 발견
- CASP14 97개 표적 단백질 중 대다수에서 실험 구조와 구분하기 어려운 수준의 예측 달성
- 유사한 구조가 알려지지 않은 "아무 힌트 없는" 단백질에서도 높은 정확도 유지
- 새 단백질 구조 예측에 몇 분~몇 시간 소요 (실험 대비 수만 배 빠름)
- 각 아미노산의 예측 신뢰도 점수(pLDDT)를 함께 제공해 불확실 영역 파악 가능
- 2022년 2억 개 이상 단백질 구조 데이터베이스 무료 공개
우리 삶에 미치는 영향
2022년 DeepMind는 AlphaFold2를 활용해 2억 개 이상의 단백질 구조 데이터베이스를 무료 공개했습니다. 신약 개발자들은 이 데이터베이스를 활용해 암·알츠하이머·항생제 내성균 등 난치병 치료제 후보를 탐색하는 시간을 획기적으로 단축하고 있습니다. 구조 기반 신약 설계, 효소 공학, 기초 생명과학 전반에서 AlphaFold는 이미 필수 도구가 됐으며, 2024년 노벨 화학상이 이 연구에 수여됐습니다.
📄 원문: John Jumper, Richard Evans, Alexander Pritzel et al., "Highly accurate protein structure prediction with AlphaFold", Nature, 2021. DOI: 10.1038/s41586-021-03819-2