
구글 딥마인드가 동영상을 기반으로 3차원 공간을 시계열에 따라 인식할 수 있는 AI D4RT를 개발했다. D4RT는 기존 모델과 비교해 고정밀도이면서 고속으로 공간 인식이 가능하며 인간과 같은 방식으로 세계를 인식할 수 있는 AI 개발에 도움이 될 것으로 평가받고 있다.
인간은 시각 정보를 바탕으로 3차원 공간을 인식하고 직전과 현재 상황을 토대로 미래 상황을 추측할 수 있다. 이 때문에 AI에 인간과 유사한 세계 인식 능력을 부여하려면 카메라로 촬영한 영상 인식 능력 뿐 아니라 카메라 영상을 바탕으로 입체적인 3차원 공간을 구축하고 시계열에 따라 움직임을 이해하는 공간과 시간을 결합한 4차원 인식 능력도 필요하다.
D4RT는 카메라로 기록한 영상을 바탕으로 3차원 공간을 구축하며 모든 객체에 대한 모든 픽셀을 시계열에 따라 인식할 수 있다.
기존 AI 모델로 유사한 4차원 인식 시스템을 구축하려면 깊이 인식 AI, 동체 인식 AI, 카메라 앵글 인식 AI 등 여러 전용 AI 모델을 조합해야 하며 처리에 많은 시간이 소요됐다. 반면 D4RT는 트랜스포머 기반 단일 모델로 필요한 처리를 실행할 수 있어 정밀도와 속도를 동시에 달성하는 데 성공했다.
To perceive a 2D scene captured on video, an AI must track every pixel of every object as it moves. 🔍️️
Capturing this level of geometry and motion requires computationally intensive processes leading to slow and fragmented reconstructions. But D4RT takes a different… pic.twitter.com/LraeC1bWUE
— Google DeepMind (@GoogleDeepMind) January 22, 2026
각종 AI에 대한 4차원 인식 성능을 비교해보면 D4RT는 기존 모델과 비교해 높은 인식 성능을 보여주고 있다. 또 기존 기술에서는 1분짜리 동영상을 처리하는 데 10분이 걸렸지만 D4RT에서는 5초 만에 처리를 완료할 수 있다고 한다. 구글 딥마인드는 D4RT는 기존 기술과 비교해 120배 고속화를 실현했다고 강조했다. D4RT 기술 논문은 이곳, 관련 내용은 여기에서 확인할 수 있다.
![[AI서머리] ‘이벤트캣’, 매출 100만 달러 돌파‧공간 브랜드 마지모우, STIP IP 거래소 상장](https://startuprecipe.co.kr/wp-content/uploads/2026/01/260126_naver_0502353-75x75.jpg)

