x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

키워드에 맞는 동영상을 검색하는 건 쉽지만 동영상 안에서 키워드에 맞는 특정 장면을 잘라내는 건 어렵다. 이 처리를 AI로 수행하는 프로세스가 공개됐다.

센트리서치(SentrySearch)가 수행하는 건 키워드 문맥을 고려해 정밀한 검색을 실행하는 시맨틱 검색. 동영상을 지정한 초 단위로 분할하고 장면마다 구글 제미나이 임베딩 API(Gemini Embedding API) 또는 로컬 Qwen3-VL-Embedding 모델을 사용해 인덱싱한다. 이후 검색 처리를 수행하고 키워드에 맞는 장면을 반환한다.

위에서 언급한 두 모델은 캡션이나 텍스트 변환 같은 중간 처리 없이 동영상을 직접 처리할 수 있는 모델이다. 이 처리 덕분에 수 시간에 달하는 영상에 대해서도 1초 미만으로 검색을 실행할 수 있다고 한다. 제미나이는 1초당 정확히 1프레임을 추출해 토큰화해 처리한다.

제미나이 임베딩 API로 1시간 분량 동영상을 인덱싱하는 데는 2.84달러가 든다. Qwen3-VL-Embedding을 사용하면 무료다.

기본 설정으로는 30초 단위로 분할되며 각 장면은 앞뒤 장면과 5초씩 겹치도록 설정되어 있다. 검색하려는 장면이 앞뒤 두 장면에 걸쳐 있는 경우 검색이 잘 되지 않을 수 있으며 개발자는 보다 고도화된 장면 감지 등을 통해 개선할 수 있을 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post