
세일즈포스(Salesforce) AI 연구 부문인 세일즈포스 AI 리서치(Salesforce AI Research)가 1조 개에 이르는 텍스트 토큰을 포함한 오픈소스 멀티모달 데이터세트 MINT-1T를 공개했다.
AI 개발에는 방대한 텍스트와 이미지를 포함하는 데이터세트가 필요하며 고품질 데이터세트가 오픈소스로 공개되는 건 AI 분야 발전에 큰 이점이 된다. MINT-1T는 오픈소스 멀티모달 데이터세트로 텍스트 토큰 1조 개와 이미지 34억 장이 포함되어 있으며 PDF와 프리프린트 서버인 아카이브 논문 등 기존 데이터세트에서는 활용되지 않았던 데이터도 포함되어 있다고 한다.
https://platform.twitter.com/widgets.jsBreaking news! ➡️➡️➡️ We just released the MINT-1T 🍃dataset! One trillion tokens. Multimodal. Interleaved. Open-source. Perfect for training multimodal models and advancing their pre-training. Try it today!
— Salesforce AI Research (@SFResearch) July 24, 2024
Blog: https://t.co/e36YvEBrcP
Dataset: https://t.co/FHKhkAURdN pic.twitter.com/guqup91SBW
OBELICS나 MMC4 같은 기존 오픈소스 데이터세트 토큰 수는 최대 1,150억 개였던 점을 감안하면 MINT-1T는 토큰 수가 크게 증가한 것이다.
MINT-1T에 포함된 문서 샘플에는 이미지와 함께 텍스트가 병기되어 있으며 다양한 그래프와 히트맵 등도 포함되어 있다. 세일즈포스 AI 리서치 측은 MINT-1T 큐레이션 주요 원칙은 규모와 다양성이라며 다양성을 향상시키기 위해 HTML 문서를 넘어 웹 PDF와 아카이브 논문도 포함하도록 했다며 이런 추가 소스로 인해 과학 문서 영역 커버리지가 향상됐다는 걸 확인했다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 쏘카 따릉이 서비스 제공‧아지트 하반기 로드맵 발표](https://startuprecipe.co.kr/wp-content/uploads/2024/07/240730_Alibaba-Cloud_OBS-Cloud-_0001.jpg)
![[이번주글로벌] 1분기 투자 사상 최고치 경신‧인도 전년대비 28% 증가](https://startuprecipe.co.kr/wp-content/uploads/2026/04/260403_Vertical-Aerospace_500235-350x250.jpg)
