
AI 개발 기업 라이트릭스(Lightricks)가 오픈소스 오디오·비디오 생성 모델 LTX-2를 출시했다. LTX-2는 하이엔드 개인용 PC에서 로컬로 실행할 수 있으며 환경음과 대화 음성을 포함한 영상을 생성할 수 있다.
LTX-2가 갖춘 주요 특징을 보면 먼저 고충실도 생성. 최대 20초 분량 음성과 영상을 동기화한 영상을 생성할 수 있다. 구성과 하드웨어에 따라 고해상도와 고프레임레이트에도 대응하며 빠른 시행착오용 고속 생성부터 품질을 중시한 고품질 출력까지 유연하게 확장할 수 있도록 설계되어 있다.
다음은 음성과 영상을 한 모델로 동시 생성. 대화, 입술 움직임, 환경음 등을 한 번 생성 처리로 함께 생성하므로 후처리로 음성 싱크를 맞출 필요가 없다. 자연스러운 대화 타이밍과 표정을 연출해 표현력이 풍부한 퍼포먼스를 실현한다.
이어 모션 리얼리즘. 프레임 간 일관성을 유지하면서 안정적인 움직임과 인물·캐릭터의 정합성을 유지한 다이내믹한 장면 생성이 가능하다. 인물이나 캐릭터가 부자연스럽게 무너지기 어렵도록 설계되어 있다.
다음은 세밀한 제어. LoRA 기반 커스터마이징을 지원하며, 카메라 동작을 고려한 모션 제어와 텍스트·이미지·영상·음성·깊이 정보 등 멀티모달 입력을 조합해 의도에 맞는 창의적인 영상 표현을 세밀하게 지정할 수 있다.
이어 효율적인 설계. 컴팩트한 잠재 공간과 개선된 아키텍처를 통해 LTX-2는 하이엔드 소비자용 GPU에서 효율적으로 동작한다. 전용 대규모 인프라 없이도 로컬 환경에서 고품질 음성과 영상 생성을 실행할 수 있다.
LTX-2를 사용하는 방법은 여러 가지가 있지만 라이트릭스는 성능과 사용 편의성 균형이 가장 좋은 오픈소스 GUI 도구인 ComfyUI로 시작할 것을 권장하고 있다.
LTX-2 is now open source.
The first truly open audio-video generation model with open weights and full training code, designed to run locally on @NVIDIA_AI_PC RTX consumer GPUs.
Details below 🧵 pic.twitter.com/V8jkQwxjV8
— LTX-2 (@ltx_model) January 6, 2026
엔비디아는 CES 2026에 맞춰 개최한 이벤트(RTX AI Garage)에서 지포스 RTX, 엔비디아 RTX 프로, 엔비디아 DGX 스파크 디바이스를 위한 일련의 AI 업그레이드를 발표했다. 그중 하나가 기존에는 로컬 PC에서 구현이 어려웠던 4K 영상 생성을 가능하게 하는 영상 생성 업스케일 파이프라인으로 해당 파이프라인을 구현하는 모델로 LTX-2가 채택됐다.
클립이 생성되면 ComfyUI 내 새로운 RTX Video 노드를 사용해 몇 초 만에 영상을 4K로 업스케일할 수 있다. 이 업스케일러는 실시간으로 동작하며 에지를 선명하게 하고 압축 아티팩트를 제거해 또렷한 영상을 구현한다. 이를 통해 LTX-2는 주요 클라우드 기반 모델에 뒤지지 않는 생성 결과를 제공하면서 최대 20초 분량 4K 영상을 생성할 수 있다. 엔비디아는 LTX-2를 로컬 AI 영상 제작에 있어 큰 이정표라고 표현했다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] SML메디트리 투자 유치‧뉴본벤처스, 2025 투자 성과 공개](https://startuprecipe.co.kr/wp-content/uploads/2026/01/260109_woowayouths.com_500230535-75x75.jpg)

