
키워드에 맞는 동영상을 검색하는 건 쉽지만 동영상 안에서 키워드에 맞는 특정 장면을 잘라내는 건 어렵다. 이 처리를 AI로 수행하는 프로세스가 공개됐다.
센트리서치(SentrySearch)가 수행하는 건 키워드 문맥을 고려해 정밀한 검색을 실행하는 시맨틱 검색. 동영상을 지정한 초 단위로 분할하고 장면마다 구글 제미나이 임베딩 API(Gemini Embedding API) 또는 로컬 Qwen3-VL-Embedding 모델을 사용해 인덱싱한다. 이후 검색 처리를 수행하고 키워드에 맞는 장면을 반환한다.
위에서 언급한 두 모델은 캡션이나 텍스트 변환 같은 중간 처리 없이 동영상을 직접 처리할 수 있는 모델이다. 이 처리 덕분에 수 시간에 달하는 영상에 대해서도 1초 미만으로 검색을 실행할 수 있다고 한다. 제미나이는 1초당 정확히 1프레임을 추출해 토큰화해 처리한다.
제미나이 임베딩 API로 1시간 분량 동영상을 인덱싱하는 데는 2.84달러가 든다. Qwen3-VL-Embedding을 사용하면 무료다.
기본 설정으로는 30초 단위로 분할되며 각 장면은 앞뒤 장면과 5초씩 겹치도록 설정되어 있다. 검색하려는 장면이 앞뒤 두 장면에 걸쳐 있는 경우 검색이 잘 되지 않을 수 있으며 개발자는 보다 고도화된 장면 감지 등을 통해 개선할 수 있을 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 대구창경, AX 창업오피스 2차 모집‧네이버·EBS, 지식 영상 콘텐츠 협력 확대](https://startuprecipe.co.kr/wp-content/uploads/2026/04/260407_Daegu-Center-for-Creative-Economy-Innovation_500320535-75x75.jpg)
![[AI서머리] 그리니시스템, 100억 투자 유치‧한국딥러닝, ‘딥에이전트 for 금융’ 출시](https://startuprecipe.co.kr/wp-content/uploads/2026/04/260407_DIDEN-Spider_500325-350x250.png)
