
이미지 생성 AI나 이미지를 분석하기 위한 AI를 훈련하려면 고양이 이미지에 고양이, 걷고 있는, 줄무늬 같은 라벨을 수작업으로 대량 붙인 데이터가 필요하다. 하지만 메타(Meta)가 발표한 DINOv3라는 모델은 라벨이 없는 이미지 17억 장을 사용해 훈련됐으며 라벨에 얽매이지 않는 다양한 작업을 인간 개입 없이 전문 모델 이상 성능으로 수행할 수 있다.
시각적 작업을 수행하는 AI 학습은 인간 손으로 라벨링한 이미지에 의존하는 게 주류였으며 텍스트로 명시적으로 언급되지 않은 정보가 무시되거나 전문적인 영상에는 정확한 라벨링이 어렵다는 문제가 있었다. DINOv3 전신인 DINOv2는 자기지도학습을 통해 동적인 영상에서 기존 것보다 고정밀도 세그멘테이션을 생성할 수 있으며 인간에 의한 라벨링 없이 자기학습이 가능하기 때문에 인간 설명이 닿지 않는 데이터도 빠짐없이 모델에 포함시킬 수 있다.
그런 DINOv2를 더 발전시킨 게 DINOv3다. 먼저 큰 차이점으로 라벨링된 데이터를 필요로 하지 않는 혁신적인 훈련 기술에 의해 DINOv2가 매개변수 11억인 반면 DINOv3는 70억 매개변수로 모델 규모가 7배까지 확장됐다.
또 훈련에 사용된 데이터량은 DINOv2가 1억 4,200만 장, DINOv3가 17억 장으로 12배 증가했다.
이미지나 동영상을 입력할 때 통상적으로는 어떤 데이터인지 인간 손으로 라벨링이 필요하다. DINOv3에서는 라벨링 수고가 없으며 배경 등 세세한 포인트까지 빠짐없이 학습시킬 수 있다. 또 자기지도학습을 채택하고 있어 이미지 일부를 숨기고 다른 부분으로부터 예측한다, 같은 이미지를 회전시키거나 잘라내어 특징을 학습한다 같이 모델이 스스로 학습을 위한 의사 작업을 만들어 훈련을 진행한다.
모든 벤치마크에서 DINOv3는 이전 모델을 크게 상회했으며 SigLIP 2나 Perception Encoder와 비교해도 동등 이상 높은 성능을 발휘한다.
메타에 따르면 이미지나 동영상에서 요소를 분류·추출하는 작업이나 고밀도 예측 작업에서 DINOv3는 전용 솔루션을 상회하는 성능을 발휘했다고 한다. DINOv3는 기존 사용 사례를 가속화할 뿐 아니라 헬스케어나 환경 모니터링, 자율주행차, 소매 및 제조업 등 다양한 업계 진보로 이어질 것으로 기대된다.
또 DINO 접근법은 특정 종류의 이미지에 특화되지 않았기 때문에 조직학, 내시경검사, 의료용 이미지 처리 등 라벨링이 어렵거나 비용이 많이 드는 다른 분야에도 적용할 수 있다. 또 방대한 데이터량과 복잡성으로 인해 수작업 라벨링이 현실적이지 않은 위성 이미지나 항공 이미지에서도 DINOv3라면 풍부한 데이터세트를 사용해 단일 백본을 훈련할 수 있어 환경 모니터링이나 도시계획, 재해 대응 등 애플리케이션을 발전시킬 수 있다.
https://platform.twitter.com/widgets.jsIntroducing DINOv3: a state-of-the-art computer vision model trained with self-supervised learning (SSL) that produces powerful, high-resolution image features. For the first time, a single frozen vision backbone outperforms specialized solutions on multiple long-standing dense… pic.twitter.com/nwS3zFCaaN
— AI at Meta (@AIatMeta) August 14, 2025
메타는 DINOv3 세부사항을 깃허브나 허깅페이스에서 공개하고 있다. 다만 DINOv2가 오픈소스화되었던 것과는 달리 DINOv3는 훈련 코드와 사전 훈련된 백본을 DINOv3 License라는 독자 라이선스 하에서 릴리스하고 있다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 충남 벤처펀드, 1,000억 규모로 출범‧상생페이백, 소비하면 최대 30만원 환급](https://startuprecipe.co.kr/wp-content/uploads/2025/08/250820_Trina-Storage_600360-75x75.jpg)

