x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

구글 딥마인드 연구팀이 100만 문자에 달하는 방대한 DNA 서열을 한 번에 분석하고 유전자 발현이나 스플라이싱과 같은 11종류 주요 게놈 프로세스를 높은 정확도로 예측할 수 있는 새로운 AI 모델 알파지놈(AlphaGenome)을 개발했다. 이 연구 성과가 과학저널 네이처에 2026년 1월 28일자로 게재됐으며 연구 커뮤니티를 향해 소스 코드와 모델 가중치가 공개됐다. 알파지놈은 기존 모델인 Borzoi가 분석 가능했던 50만 염기보다 2배에 해당하는 100만 염기(1Mb) 컨텍스트를 처리할 수 있는 능력을 갖추고 있다.

알파지놈의 가장 큰 특징은 방대한 DNA 서열을 다루면서도 단일 염기 단위라는 높은 해상도로 예측을 수행할 수 있다는 것. 예측 대상이 되는 11종류 프로세스에는 RNA 시퀀싱, CAGE, PRO-cap과 같은 유전자 발현 외에 상세한 스플라이싱 패턴, 크로마틴 접근성, 히스톤 수식, 전사인자 결합, 그리고 게놈의 공간적 상호작용을 표현하는 크로마틴 컨택트 맵 등이 포함된다.

알파지놈 아키텍처는 이미지 분석 분야에서 높은 성과를 올리고 있는 U-Net 구조를 게놈 서열 분석에 응용한 딥러닝 모델이다. 이 모델은 100만 염기라는 광대한 DNA 서열을 한 번에 처리하고 생명 설계도에 포함된 복잡한 제어 정보를 읽어내기 위해 정보 압축과 복원을 단계적으로 수행하는 계층적 설계를 채택하고 있다.

인코더(Encoder)에서는 1염기마다 세밀한 DNA 정보를 합성곱을 사용해 단계적으로 요약해 나간다. 최종적으로 정보를 128염기 단위 해상도까지 낮춰 데이터 전체 특징을 효율적으로 추출한다.

 

트랜스포머 부분(Transformer tower)에서는 요약된 정보를 바탕으로 멀리 떨어진 게놈 영역 간 관계성을 모델링한다. 예를 들어 유전자 작동을 조절하는 영역이 수만 염기 이상 떨어진 곳에 있어도 그 상호작용을 정확하게 포착하는 게 가능하다.

그리고 디코더(Decoder)에서 요약된 정보를 다시 1염기 단위 정보로 복원한다. 요약 정보를 바탕으로 멀리 떨어진 게놈 영역 간 관계성을 모델링한다. 예를 들어 유전자 작동을 조절하는 영역이 수만 염기 이상 떨어진 곳에 있어도 그 상호작용을 정확하게 포착할 수 있다.

알파지놈은 인간과 마우스 양쪽 게놈 데이터를 사용하여 학습됐으며 특정 세포 타입에서의 유전자 활동 변화를 Borzoi보다 14.7% 정확하게 식별하는 데 성공했다. 또 eQTL 부호 예측 태스크에서도 선행 모델인 Borzoi 평균 auROC가 0.75였던 것에 비해 알파지놈은 0.80으로 향상시키는 등 Borzoi 성능을 많은 평가 지표에서 능가하고 있다.

구글 딥마인드 측은 스플라이싱 예측 메커니즘에서도 차이가 보이는데 Borzoi는 RNA-seq 커버리지 데이터로부터 스플라이스 부위를 암묵적으로 추정하는 수법을 취했지만 알파지놈은 스플라이스 부위, 이용률, 스플라이스 정션을 직접적이고 명시적으로 예측할 수 있다는 점에서 진화했다고 어필하고 있다.

실용 측면에서 알파지놈은 질병 원인이 되는 유전적 요인의 특정이나 새로운 치료법 개발을 가속화할 것으로 기대되고 있다. 그 중에서도 게놈 98%를 차지하면서도 이해가 어려웠던 비코딩 영역 변이가 어떻게 유전자 온·오프나 볼륨 조절에 간섭하는지를 규명하는 강력한 도구가 될 것이다. 예를 들어 특정 조직에서만 유전자를 작동시키는 새로운 DNA 서열 설계나 암을 유발하는 변이의 정확한 특정, 희귀 유전성 질환의 진단 연구로의 응용이 상정되고 있다.

구글 딥마인드는 알파지놈을 비영리 목적의 연구 용도로 깃허브, 캐글, 허깅페이스를 통해 이용 가능하도록 했다. 모델 실행에는 엔비디아 H100 GPU 이상 환경이 권장되고 있지만 전용 API를 통해 모델과 대화할 수 있는 구조도 제공되고 있다.

현재 개인의 게놈 예측에는 과제가 남아 있지만 게놈 조절 코드를 해독해 생명 설계도를 읽어내기 위한 기초적인 단계로 알파지놈은 광범위한 생물학 연구로의 기여가 기대되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post