x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

AI 플랫폼 루마 AI(Luma AI)가 자사 첫 통합 이해·생성 모델인 유니-1(Uni-1)을 발표했다.

범용 인공지능에는 추론과 상상, 기호 조작, 세계를 시뮬레이션하는 능력이 필요하다. 인간의 경우 언어·논리·공간 인식·창의성 등 다양한 능력이 좌뇌 및 우뇌 기능으로 제공된다. 인간 좌뇌와 우뇌는 각각 독립적으로 기능하는 게 아니다. 언어·지각·상상력은 깊게 얽혀 있으며 촘촘한 신경 경로로 연결돼 사고와 이미지가 함께 진화한다.

반면 기존 AI 시스템은 언어 관련 작업은 대규모 언어 모델(LLM), 이미지 생성은 이미지 생성 모델, 현실 세계 시뮬레이션은 세계 모델이라는 식으로 인간 능력 일부를 개별 습득하는 데 그쳤다.

이에 루마 AI는 독창적인 접근법을 채택했다. 논리적인 두뇌에서 마음의 눈을 키우고 디지털 영역과 물리 영역 모두에서 추론·상상·계획·반복·실행하는 시스템 구축을 목표로 유니-1을 개발했다. 루마 AI는 유니-1에 대해 시간·공간·로직을 단일 아키텍처로 통합적으로 모델링해 파편화된 파이프라인으로는 실현할 수 없는 문제 해결을 가능하게 한다고 설명했다.

유니-1은 구글 나노 바나나 프로와 오픈AI GPT 이미지 1.5와 동일한 자기 회귀형 트랜스포머(Transformer) 모델을 기반으로 한다.

 

유니-1은 생성 전과 생성 중 프롬프트를 추론하며 복잡한 지시를 분해해 장면을 계획할 수 있다. 이 접근법은 통상적으로 프롬프트 대응 정확도를 대폭 향상시킨다. 이를 통해 유니-1은 사진 여러 장을 생성하고 이를 전혀 새로운 구도로 합성하는 게 가능하다.

루마 AI에 따르면 유니-1은 기본 생성 기능 외에도 여러 차례 대화 턴을 거치며 문맥을 유지하면서 주제를 다듬고 이미지를 76종 이상 아트 스타일로 변환하며 스케치나 시각적 지시를 입력으로 받아 참조 이미지에서 인물·포즈·구도를 다른 이미지로 전송하는 것도 가능하다. 참조 이미지 1장 만으로 피아니스트의 유년기부터 노년기까지를 재현한 영상 생성에도 성공했다.

유니-1은 AI 추론 기반 시각적 편집 능력을 평가하는 벤치마크 테스트인 라이즈벤치(RISEBench)에서 구글 나노 바나나 2와 오픈AI의 GPT 이미지 1.5를 근소한 차이로 앞질렀다.

유니-1은 크리에이티브 어시스턴트인 루마 에이전츠(Luma Agents)와 루마 API(Luma API)를 통해 조만간 이용 가능해질 예정이지만 구체적인 가격은 아직 발표되지 않았다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post