x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

메타가 텍스트나 시각적 샘플을 프롬프트로 사용해 이미지와 동영상 내 객체를 감지, 분할, 추적하는 통합 모델 메타 세그먼트 애니띵 모델 3(Meta Segment Anything Model 3. SAM 3)를 발표했다.

SAM 3는 프롬프트를 기반으로 이미지와 동영상 내 객체를 감지·세그먼트화·추적할 수 있는 통합 모델이다. 예를 들어 개나 노란색 스쿨버스처럼 짧은 텍스트를 입력하거나 노란색 스쿨버스 이미지를 인식시키면 이미지와 동영상 내에서 지정한 객체를 추출할 수 있다.

또 범위 지정이나 클릭으로 동영상 내 객체를 지정하는 방식으로도 객체를 감지하고 추적할 수 있다.

SAM 1과 2에서는 화면상 객체를 클릭하는 시각적 프롬프트 기반 세그먼트화만 지원했다. SAM 3에서는 세그먼트화할 객체를 텍스트로 상세하게 지정할 수 있게 됐다.

또 기존 모델은 고정된 텍스트 레이블 세트를 갖고 있어 버스나 자동차같은 단순한 개념은 세그먼트화할 수 있지만 노란색 스쿨버스같은 보다 상세한 개념을 세그먼트화하기는 어려웠다. SAM 3는 이런 한계를 극복하고 더 광범위한 텍스트 프롬프트에 대응한다고 한다.

더 나아가 SAM 3의 상세한 텍스트를 이해하는 능력을 평가하기 위해 새로운 벤치마크 데이터셋 세그먼트 애니띵 위드 컨셉츠(SA-Co)도 공개됐다. SA-Co를 통해 빨간 야구모자, 파란 창문 같은 세밀한 묘사 기반 세그먼트화 능력을 측정할 수 있게 됐으며 SAM 3는 이 SA-Co 벤치마크에서 높은 제로샷 성능을 보여 기존 모델로는 어려웠던 세밀한 개념 지정을 통한 객체 추출을 더 정확하게 수행할 수 있음을 입증했다.

https://platform.twitter.com/widgets.js

SAM 3는 동영상 편집 등 미디어와 크리에이티브 용도, AR/VR 콘텐츠, 웨어러블 기기 탑재, 연구 및 산업 응용 뿐 아니라 라벨링 도구로 활용해 데이터 해석과 학습 지원에 활용되기를 기대하고 있다. SAM 3는 오픈소스로 깃허브에 공개됐다.

또 이미지 1장에서 객체나 인물을 3D로 재구성하는 모델 SAM 3D도 공개됐다. SAM 3와 SAM 3D는 전문 지식이 없어도 누구나 최첨단 모델에 접근할 수 있는 새로운 플랫폼인 세그먼트 애니띵 플레이그라운드에서 체험할 수 있다. 세그먼트 애니띵 플레이그라운드는 연구용 데모로 개인적인 비상업적 목적의 이용으로 제한되지만 누구나 무료로 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post