넷플릭스가 개발한 동영상 편집 프레임워크

넷플릭스가 새롭게 개발한 영상 편집 프레임워크인 VOID(Video Object and Interaction Deletion)를 발표했다. 영상에서 임의의 물체를 제거했을 때 남은 물체 움직임을 물리적으로 시뮬레이션해 영상을 생성할 수 있는 게 특징.

넷플릭스와 불가리아 소피아대학 연구팀은 영상 편집 프레임워크로 VOID를 발표했다. 기존 삭제 기법은 배경 보완이나 외형 수정에는 뛰어났지만 물체 간 복잡한 물리적 접촉이 포함된 장면에서는 부자연스러운 결과를 초래하는 경우가 많았으며 VOID는 이런 문제를 해결하기 위해 설계됐다.

기존 영상 오브젝트 삭제 기법은 삭제된 물체 뒤에 있는 배경을 보완하거나 그림자와 반사 등 외형적 위화감을 수정하는 데 강점을 보였다. 하지만 삭제 대상이 다른 물체와 충돌하거나 이를 지탱하고 있는 경우에는 기존 모델에서 부자연스러운 결과가 발생하는 일이 많았다. VOID는 이런 복잡한 시나리오에서 물리적으로 타당한 반사실적(counterfactual) 영상을 생성하는 걸 목표로 개발됐다.

다시 말해 VOID는 영상에서 물체를 제거했을 때 해당 물체가 존재하지 않았다면 주변이 어떻게 움직였을지를 물리적 인과관계에 기반해 시뮬레이션할 수 있다는 점이 가장 큰 특징이다. 예를 들어 도미노가 쓰러지는 영상에서 중앙 도미노를 VOID로 제거하면 편집된 영상에서는 이후 도미노가 쓰러지지 않고 그대로 남는다. 수영장에 사람이 뛰어들어 큰 물보라가 일어나는 영상에서 사람만 제거해 VOID로 편집할 경우 물보라도 발생하지 않고 튜브 역시 거의 움직이지 않는다.

VOID는 시각과 언어를 통합한 모델(VLM)을 활용한 쿼드마스크(Quadmask) 구조를 도입했다. 사용자가 제거하고 싶은 물체를 몇 차례 클릭해 지정하면 VLM이 장면 문맥을 추론해 물체 낙하 궤적이나 충돌이 회피되는 영역 등 물체 제거로 영향을 받는 범위를 식별한다. 이후 해당 영역은 기존 트리마스크를 확장한 흰색, 검은색, 연한 회색, 짙은 회색 등 4가지 색상 쿼드마스크로 인코딩되며 영상 확산 모델에 정밀한 픽셀 공간 가이던스를 제공한다.

VOID는 코그비디오엑스(CogVideoX)라는 50억 파라미터 규모 확산 트랜스포머를 기반으로 구축됐다. 1차 패스에서는 VLM 안내에 따라 물리적으로 타당한 반사실적 궤적과 움직임을 생성한다. 이어 생성된 영상에서 물체 왜곡이나 변형을 방지하기 위해 2차 패스인 플로우-워프드 노이즈 스태빌라이제이션(Flow-Warped Noise Stabilization)을 적용한다. 1차 패스에서 예측된 움직임을 기반으로 시간적으로 상관된 노이즈를 활용해 새롭게 합성된 궤적을 따라 물체의 형태를 안정화하는 방식이다.

모델 학습에는 물리 시뮬레이션 엔진인 큐브릭(Kubric)을 활용한 강체역학 데이터 1900세트와 인간 동작 캡처 데이터 휴모토(HUMOTO)를 활용한 4500세트가 사용됐다. 이런 데이터를 통해 VOID는 새로운 장면에서도 높은 일반화 성능을 보인다고 밝혔다. 예를 들어 풍선을 들고 있는 이들을 제거하면 풍선이 날아간다거나 스위치를 누르는 사람 자체를 제거하면 믹서기가 작동하지 않는다는 식 학습 데이터에 직접 포함되지 않은 물리 현상도 VLM의 지식과 결합해 적절히 처리하고 영상에 반영할 수 있다.

VOID는 현재 학술 프리프린트 논문 형태로 공개된 상태로 연구 커뮤니티를 대상으로 한 기술 공개 단계에 있다. 허깅페이스에서는 데모가 공개됐다. 또 VOID 소스코드는 깃허브를 통해 아파치 2.0 라이선스로 공개됐다. 관련 내용은 이곳에서 확인할 수 있다.