x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

구글 연구개발 부문인 구글 리서치가 암 유전적 변이를 특정하기 위한 오픈소스 AI 도구인 딥소매틱(DeepSomatic)을 캘리포니아 대학교 산타크루즈 캠퍼스 등과 공동으로 개발했다고 발표했다.

암 유전자 분석에서는 부모로부터 물려받아 신체의 모든 세포에 존재하는 선천적 변이와 자외선, 화학물질, DNA 복제 과정 내 우연한 오류 등으로 인한 후천적 변이를 정확히 구분할 필요가 있다. 딥소매틱은 선천적 변이를 발견하기 위한 도구인 딥바리언트(DeepVariant) 확장 기능으로 암 세포와 정상 세포의 게놈 서열 데이터를 이미지로 변환한 뒤 합성곱 신경망(CNN)으로 분석한다. 이런 이미지 분석을 통해 유전자 서열을 읽는 시퀀싱 과정에서 발생하는 미세한 오류와 실제 유전적 변이를 구별하여 암 특유의 체세포 변이를 높은 정확도로 검출한다.

이런 기법을 통해 딥소매틱은 기존 분석 도구를 능가하는 성능을 발휘한다. 그 중에서도 그동안 검출이 어려웠던 유전자 코드 일부가 삽입되거나 결실되는 인델(indel)이라 불리는 변이의 특정에서 대폭적인 정확도 향상을 실현했다고 연구팀은 보고했다.

딥소매틱이 지닌 높은 성능을 뒷받침하는 건 CASTLE이라 명명된 고품질 학습용 데이터세트다. 이 데이터세트는 유방암과 폐암 샘플에 대해 3가지 주요 시퀀싱 시스템 데이터가 통합된 것으로 각 플랫폼이 포함하고 있는 오류를 제거해 정확한 것이 됐다고 한다.

실제로 주요 시퀀싱 시스템인 일루미나(Illumina) 데이터를 이용한 인델 변이 검출에서 기존 도구 정확도를 나타내는 F1 스코어가 80%였던 반면 딥소매틱은 90%를 달성했다. 또 퍼시픽 바이오사이언스(PacBio) 데이터에서는 기존 도구가 50% 미만 스코어였던 곳에 딥소매틱은 80% 이상이라는 높은 정확도를 기록하며 우월성을 입증했다고 한다.

나아가 딥소매틱은 포르말린으로 고정된 오래된 조직 샘플이나 게놈 전체 중 단백질 설계도가 되는 부분만을 분석하는 엑솜 시퀀싱(exome sequencing) 데이터 등 분석이 어려운 조건이나 정보량이 적은 데이터에 대해서도 높은 성능을 유지할 수 있음이 확인됐다.

더불어 구글 리서치는 딥소매틱이 학습에 사용된 유방암과 폐암 뿐 아니라 완전히 다른 종류 암에도 그 능력을 적용할 수 있다고 강조했다. 실제로 악성도가 높은 뇌종양인 교모세포종(glioblastoma) 샘플을 분석한 결과, 원인이 되는 유전적 변이를 정확히 특정하는 데 성공했다.

https://platform.twitter.com/widgets.js

또 소아에서 가장 많은 암인 소아백혈병 분석도 수행됐다. 백혈병은 혈액 암이기 때문에 비교 대상이 될 정상 혈액 세포를 채취하기가 어렵지만 암 세포 데이터만을 이용하는 종양만 분석에서도 이미 알려진 변이에 더해 새로운 변이 10개를 발견할 수 있었다고 한다.

구글 리서치는 진정한 구체적 영향을 미치는 기초적 돌파구를 만들고 있다며 자사가 이 일을 하는 이유는 미래로 나아가는 길이 인간을 위해 현실을 더 나은 것으로 만들 수 있는 연구에 기초하고 있기 때문이라고 밝혔다.

딥소매틱은 BSD 라이선스 하에서 깃허브를 통해 저장소가 공개되어 있다. 또 데이터세트인 CASTLE도 깃허브에서 호스팅되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post