
스탠포드 대학, 메모리얼 슬론 케터링 암센터, 아크인스티튜트(Arc Institute) 연구팀이 세계에서 처음으로 언어 모델을 이용해 박테리오파지 게놈을 설계했다고 발표했다. 이 연구 성과는 프리프린트 서버(bioRxiv)에 공개됐다.
연구팀이 사용한 게놈 언어 모델은 DNA나 RNA, 단백질 서열을 언어로 간주해 그 문법과 의미를 학습하는 AI 모델이다. 게놈 언어 모델은 DNA 염기서열을 문장의 단어처럼 취급하며 방대한 게놈 서열 데이터를 읽어 들여 어떤 유전자가 어떤 기능을 갖는지, 유전자가 서로 어떻게 상호작용하는지 등 생명활동의 근간을 이루는 문법을 학습한다.
이번 연구에서 사용된 Evo 1과 Evo 2라는 모델은 박테리오파지를 비롯한 바이러스 게놈 200만 종류 이상을 포함하는 대규모 데이터셋으로 사전 학습됐다. 연구팀은 이 사전 학습된 모델을 Microviridae라는 단일 가닥 DNA를 가진 박테리오파지 게놈 1만 5,000종류로 추가 학습시켰다. 이를 통해 Evo 1과 Evo 2는 특정 기능을 가진 바이러스를 더 높은 정확도로 설계할 수 있게 됐다.
연구팀은 AI가 생성한 게놈 서열 수천 개를 평가해 후보를 302종류로 압축했다. 이들 설계로부터 DNA를 합성하고 숙주가 되는 세균에 도입해 파지를 생성했다. 추가 검증을 거친 결과 16종류에 이르는 생존 가능한 파지가 제작됐다.
생성된 파지 중에는 야생형보다 높은 증식 적응도나 더 빠른 용균 동태를 보이는 게 있었다. 또 생성된 파지를 혼합하면 야생형으로는 죽일 수 없었던 약제내성 대장균주 3종류 증식을 억제하는데 성공했다고 한다. 연구팀은 AI가 생성한 다양한 파지가 진화하는 세균 내성을 극복하는 데 유효할 가능성을 시사하고 있다.
연구팀은 이번 성과에 대해 생성 AI가 생명의 설계도인 게놈 근저에 있는 진화적 설계 공간을 포착해 기능하는 새로운 박테리오파지 게놈을 창출할 수 있음을 실증했다고 결론지었다.
지금까지의 AI에 의한 설계는 단일 유전자나 단백질이 중심이었지만 이번 연구는 복수 유전자나 제어영역이 복잡하게 상호작용하는 게놈 전체의 설계에 처음으로 성공한 것이다. 이 때문에 연구팀은 이번 성과가 더 복잡한 생물 시스템 설계로 가는 길을 열었다고 평가하며 미래에는 더 큰 게놈을 가진 생물 게놈 생성도 시야에 넣고 있다. 다만 더 큰 파지나 생물 게놈을 설계하려면 DNA 합성·조립 비용 문제나 추가 기법 혁신이 필요하다고 한다.
또 AI에 의한 게놈 설계 능력 향상은 중요한 바이오 안전상 고려를 필요로 한다. 연구팀은 이번 연구가 안전한 모델 시스템에서 수행됐음을 강조하면서 미래에는 인간 병원체 등을 다룰 때는 과학계에서의 신중한 심의와 적용되는 모든 규제에 따라 수행되어야 한다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.


