
하버드 의과대학 연구진이 계산생물학에서 구글 딥마인드(Google DeepMind) 우위에 도전하기 위해 희귀 유전병을 더 정확하게 진단하도록 설계된 새로운 AI 모델인 popEVE를 발표했다.
11월 24일 연구팀은 희귀 유전병을 진단하는 AI 모델 popEVE에 관한 논문을 학술지 네이처 제네틱스(Nature Genetics)에 발표했다. popEVE는 프로테옴 전체에 걸쳐 변이 중증도를 보정해 발달장애 후보 유전자 123개를 특정하는 데 성공했다.
popEVE는 구글 딥마인드가 개발한 유전자 변이 유해성을 예측하는 AI인 알파미스센스(AlphaMissense) 등 기존 AI에 뿌리 깊게 남아있는 결함인 위양성(false positive)을 대폭 줄이는 데 성공했다는 점에서도 뛰어나다.
임상 현장에서는 게놈 서열 분석이 빠르게 보급되고 있지만 희귀 유전성 질환의 진단율은 여전히 낮으며 일부 코호트에서는 환자 중 단 25%만이 확정적인 유전자 진단을 받을 수 있다.
임상의는 인간 건강에 미치는 영향이 불명확한 유전자 변이인 VUS의 다양한 배열에 빈번히 직면한다. VUS는 진단에서 병목현상이 되어 병을 유발하는 변이체를 특정하는 데 방해가 된다. 또 지금까지는 소아기에 발병하는 중증 질환을 유발하는 변이체와 후년이 되어서야 비로소 증상이 나타나는 경미한 질환을 유발하는 변이체를 구별할 수 없는 경우가 많았고 이는 소아 의료에 있어 중요한 문제였다.
popEVE는 병원성에 관한 임계값을 더 엄격하게 설정해 2가지 차이를 특정하는 격차를 해소하는 데 성공했다. 테스트에서 popEVE는 일반 집단에서 위양성 예측을 극적으로 줄이는 데 성공했다. 또 중증 변이 보인자로 표시되는 개인도 단 11%에 그쳤다. 이에 반해 예를 들어 구글 딥마인드 알파미스센스의 경우 일반 인구 44%를 중증 변이를 가진 것으로 분류한다. popEVE는 노이즈를 제거해 임상의가 유전성 질환 원인이 될 가능성이 가장 높은 변이에 집중할 수 있게 한다.
popEVE가 지닌 유효성은 발달장애 해명 연구와 GeneDx 데이터, 라드바우드 대학 의료센터에서 제공된 중증 발달장애 환자 3만 1,058명 메타 코호트에서 엄밀하게 검증됐다.
이 방대한 데이터세트에서 popEVE가 설정한 고신뢰도 중증도 임계값은 병원성 변이 15배 농축을 밝혀냈다. 이는 PrimateAI-3D 등 다른 주요 AI 모델 5배에 해당한다. 이런 통계적 우위로 인해 popEVE는 기존 표준 검사 프로토콜로는 설명이 불가능했던 사례 3분의 1에 대해 진단을 성공시켰다.
유전학 분야에서 아마도 가장 중요한 건 popEVE가 전혀 새로운 질병 연관성을 발견하는 능력. popEVE 분석으로 발달장애와 관련된 123개 신규 후보 유전자가 특정됐으며 그 중 119개는 단일 변이 수준에서 동정 가능한 것으로 밝혀졌다.
주목할 점은 신규 후보 유전자 123개 중 31개는 미스센스 변이만을 사용해 검출됐다는 점이다. 이 기능은 popEVE가 기존 농축 분석으로는 검출할 수 없는 병원성 신호를 검출할 수 있음을 시사한다.
또 popEVE에 의한 발견의 검증은 이미 임상 결과를 낳고 있으며 123개 신규 후보 유전자 중 25개가 다른 연구실에 의해 독립적으로 확인되어 발달장애 유전자 표현형 데이터베이스(DDG2P)에 정식 등록됐다.
더구나 popEVE를 신생변이(DNM)에 적용한 사례에서는 변이체 7%가 중증으로 판정된 반면 건강한 대조군에서는 단 0.5%였으며 병원성 변이와 양성 변이가 고도로 분리되어 있다는 게 실증됐다.
연구팀은 목표가 질병 중증도에 따라 변이를 순위화하고 우선순위가 부여된 임상적으로 의의 있는 개인 게놈 정보를 제공하는 AI 모델을 개발하는 것이었다며 popEVE가 통계적 지견을 구체적인 임상 결과로 연결하는 걸 목적으로 설계된 AI 모델이라고 강조했다.
EVE나 알파미스센스 같은 기존 AI 모델은 단일 유전자 내 변이 순위화에는 뛰어나지만 서로 다른 유전자 간 중증도 비교에는 과제가 있다. 그 결과 단백질 기능을 저해하지만 인간에게는 반드시 중증 질환을 유발하는 건 아닌 변이에 대해 높은 점수가 부여되는 경우가 있다.
이에 대해 popEVE는 EVE와 ESM-1v를 사용한 심층 진화 데이터 및 인간 집단 제약을 결합해 이 문제를 해결하는 데 성공했다. 또 연구팀은 자연 내성 변이를 특정하기 위해 영국 바이오뱅크와 gnomAD v2의 데이터를 활용했다.
잠재 가우스 과정을 사용해 관찰된 인간 변이에 대한 진화 점수를 보정하고 통일된 유해성 점수를 작성했다. 이 조정으로 임상에서 큰 진보인 싱글톤 분석이 가능해졌다. 이는 아동 엑솜만을 사용해 원인이 되는 변이를 우선순위화할 수 있는 분석이다.
보통 de novo 변이를 식별하려면 트리오 시퀀싱이 필요하지만 법외 비용이 드는 케이스나 물류적으로 불가능한 케이스가 종종 있다.
연구팀은 popEVE가 임상 워크플로에 통합되는 것에 대해 낙관적인 견해를 보이며 유전자 질환 진단을 더 빠르게 하기 위한 일상적 파이프라인에서 popEVE가 도움이 되는 데 한 걸음 가까워졌다고 느낀다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.


