메타, 이미지‧음성에 대한 뇌 반응 예측 AI 모델 공개

거의 모든 시각 및 청각 자극에 인간의 뇌가 어떻게 반응하는지 예측하도록 훈련된 기반 모델이 바로 트라이브 v2(TRIBE v2)다.

트라이브 v2는 700명 이상 피험자로부터 수집한 500시간 이상 분량 fMRI 기록을 활용해 인간 신경 활동에 대한 디지털 트윈을 생성하고, 새로운 피험자·언어·태스크에 대한 제로샷 학습을 가능하게 한 기반 모델이다.

기반이 된 건 2025년 7월에 발표된 트라이브(TRIBE)다. 트라이브가 1,000개 피질 예측을 수행했던 것과 달리 트라이브 v2는 복셀(voxel) 7만 개에 걸친 전뇌 활동을 예측한다. 또 트라이브가 피험자 단 4명을 대상으로 훈련을 진행했던 것과 달리 트라이브 v2는 방대한 녹음 데이터와 대규모 코호트를 결합해 제로샷 학습을 실현하고 있다.

트라이브 v2는 3단계 파이프라인을 통해 뇌 활동을 예측한다. 1단계는 트라이모달 인코딩(trimodal encoding)이라고 불리는 과정으로 사전 학습된 음성·영상·텍스트 임베딩을 활용해 AI 모델과 인간 뇌에 공통적인 특징을 포착한다.

2단계는 유니버설 통합(universal integration)이라고 불리는 과정이다. 이 임베딩은 모든 자극·태스크·개인에 공통된 보편적 표현을 학습할 수 있는 트랜스포머(transformer)에 의해 처리된다.

3단계에서는 뇌 매핑(brain mapping)을 실시한다. 피험자 레이어는 이런 보편적 표현을 개별 fMRI 복셀 그러니까 혈류 및 산소화의 완만한 변화를 통해 신경 활동을 추적하는 3D 픽셀에 맵핑한다.

Today we’re introducing TRIBE v2 (Trimodal Brain Encoder), a foundation model trained to predict how the human brain responds to almost any sight or sound.

Building on our Algonauts 2025 award-winning architecture, TRIBE v2 draws on 500+ hours of fMRI recordings from 700+ people… pic.twitter.com/vRoVj8gP4j

— AI at Meta (@AIatMeta) March 26, 2026

트라이브 v2는 재훈련 없이도 한 번도 본 적 없는 개인 뇌 반응을 높은 정확도로 예측하는 게 가능하다. 예를 들어 영화를 시청하거나 오디오북을 청취했을 때의 뇌 반응을 예측한 결과 기존 방법과 비교해 2~3배 높은 정확도로 뇌 반응 예측에 성공했다.

메타에 따르면 트라이브 v2의 뇌 활동 예측 정확도는 실제 fMRI 스캔보다 전형적인 반응을 더 정확하게 반영하는 경우가 많다고 한다. 뇌 활동 원시 데이터는 심박·움직임·장비 같은 요인으로 인해 노이즈가 많이 포함되는 경우가 있다. 반면 트라이브 v2는 표준적인 뇌 반응을 예측하며 개별 fMRI 기록보다 그룹 평균 신경 활동과 높은 상관관계에 있다는 게 입증됐다.

메타는 연구자가 신경과학을 더 발전시키고, 뇌에 관한 지견을 활용해 더 뛰어난 AI를 구축하거나 계산 시뮬레이션을 통해 신경 질환 진단 및 치료 분야에 대한 돌파구를 앞당길 수 있도록 모델 자체뿐 아니라 코드베이스와 논문, 데모도 공개하고 있다. 관련 내용은 이곳에서 확인할 수 있다.