엔비디아, 복수 사진으로 3D 장면 생성하는 AI 모델 발표

엔비디아가 사진 여러 장으로 3D 장면을 생성할 수 있는 AI 모델인 아티픽서(ArtiFixer)를 개발했다. 아티픽서는 동영상 생성 AI인 완 2.1(Wan 2.1)을 기반으로 개발됐으며 참고 이미지에 포함되지 않은 부분을 생성 처리로 보완해 고품질 3D 장면을 만들어낼 수 있다.

사진 여러 장을 바탕으로 3D 장면을 생성하는 기법으로 3D 가우시안 스플래팅(3D Gaussian Splatting)이라는 기술 연구가 진행되고 있지만 기존 3D 가우시안 스플래팅 시스템에는 장면의 일관성을 유지하지 못하는 경우가 많다, 사진에 찍히지 않은 부분 표현이 무너진다는 문제가 존재했다. 아티픽서는 완 2.1을 기반으로 개발된 169억 파라미터 AI 모델로 사진에 찍히지 않은 부분을 생성해 삽입하는 방식으로 3D 장면 고품질화에 성공했다.

아티픽서 학습은 2단계로 나뉘어 실시됐다. 1단계에서는 사진에 찍히지 않은 부분을 생성해 삽입하는 기능을 갖춘 AI 모델로 트레이닝되고 2단계에서는 프레임 하나부터 수백 개 프레임을 생성하는 자기회귀 모델로의 증류 트레이닝이 실시됐다.

3D scene reconstruction works great until the camera never sees part of the scene.

ArtiFixer from NVIDIA Research is an open autoregressive model that fills in the missing geometry that other methods leave blank.#SIGGRAPH2026 paper, code + demo: https://t.co/D9PX2OzbZf pic.twitter.com/AGQicvVKkW

— NVIDIA AI (@NVIDIAAI) June 22, 2026

아티픽서는 자기회귀 모델로 뷰를 생성하는 아티픽서(ArtiFixer) 외에 아티픽서 출력을 3D 표현으로 증류하는 아티픽서3D(ArtiFixer3D), 아티픽서3D 결과에 후처리로 자기회귀 모델을 적용하는 아티픽서3D+(ArtiFixer3D+) 3종류가 존재한다.

아티픽서는 선명한 장면을 생성할 수 있으며 아티픽서3D는 일관성이 높지만 다소 흐릿한 게 특징이다. 아티픽서3D+는 선명하면서도 일관성 높은 장면을 생성할 수 있다. 또 아티픽서3D+는 다른 기법과 비교해 상당히 고품질 3D 장면을 생성할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.