피규어(Figure)가 휴머노이드 로봇을 위한 새로운 머신러닝 모델을 공개했다. 이는 오픈AI와 협업에서 벗어나기로 결정한 후 2주만에 나온 소식이다. 이번 발표의 핵심은 ‘헬릭스(Helix)’로 이는 ‘범용’ 비전-언어-액션(Vision-Language-Action, VLA) 모델이다. 비전과 언어 명령을 활용해 정보를 처리하는 기술로 로보틱스 ㅂ분야에서 비교적 새로운 개념이다. 현재 가장 잘 알려진 사례는 구글 딥마인드(Google DeepMind)의 RT-2로, 비디오와 대형 언어 모델(LLM)을 결합하여 로봇을 훈련하는 방식이다.
헬릭스는 RT-2와 유사한 방식으로 작동하며, 시각 데이터와 언어 명령을 결합해 실시간으로 로봇을 제어한다. 훈련에서 한 번도 접한 적 없는 다양한 모양, 크기, 색상, 재질의 가정용 물건 수천 개를 자연어 명령만으로도 집어 올릴 수 있다.
이상적인 시나리오에서는 로봇에게 특정 작업을 말로 지시하면 즉시 수행할 수 있어야 한다. 헬릭스는 이러한 목표를 실현하기 위해 개발됐다. 플랫폼은 비전과 언어 처리 간의 격차를 해소하도록 설계됐으며 자연어 음성 명령을 받으면 로봇이 환경을 시각적으로 평가한 후 해당 작업을 수행하는 방식이다.
예를 들어 “오른쪽에 있는 로봇에게 쿠키 가방을 건네줘” 혹은 “왼쪽에 있는 로봇에게서 쿠키 가방을 받아 열린 서랍에 넣어줘”와 같은 명령이 가능하다. 이러한 시나리오는 두 대의 로봇이 함께 작업하는 방식이며 헬릭스는 한 대의 로봇이 다른 로봇을 도와 다양한 가사 작업을 수행할 수 있도록 설계됐다.
헬릭스는 현재 초기 단계에 있다.