x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

GDELT 프로젝트(GDELT Project)는 세계 각국의 100개 이상 언어로 발신되는 방송·신문·웹 뉴스를 상시 수집해 아카이브로 기록한다. 지구상 모든 사람, 조직, 장소, 주제, 뉴스 소스, 이벤트를 거대한 네트워크 하나로 연결해 전 세계 곳곳에서 무슨 일이 일어나고 있는지 배경에 뭐가 있는지, 누가 관여하고 있는지, 사람들이 이에 대해 어떻게 느끼는지를 매일 기록해 데이터베이스로 제공하는 한편 분석한 실험 결과 등도 공개하고 있다.

데이터 과학자 칼레프 리탈루(Kalev Leetaru)와 정치학자 필립 슈로트(Philip Schrodt)가 창설한 GDELT 프로젝트는 1979년부터 현재까지의 모든 뉴스 및 SNS 등 데이터를 수집하고 있다. GDELT(Global Database of Events, Language and Tone)는 뉴스를 바탕으로 세계에서 어떤 사건이 벌어지고 있는지를 대규모로 분석하는 걸 목적으로 한다. 사회적 사건과 이에 대한 사람들의 반응을 정량적 데이터로 코드화해 전 세계 동향을 분석하기 위한 기반을 제공한다.

GDELT 프로젝트에서는 수조 개에 이르는 데이터 포인트를 합산한 방대한 데이터셋이 공개되어 있으며 연구자와 저널리스트가 전 세계 정치·경제·사회 동향을 분석하기 위한 기반 데이터로 활용되고 있다. 데이터셋에는 세계 각지 물리적 활동을 300개 이상 카테고리로 코드화한 것, 해당 이벤트와 상호 관계 근저에 있는 사람, 장소, 조직, 수백만 개에 이르는 주제, 수천 개 감정을 기록한 것, 세계 뉴스 이미지에 대한 시각적 서사를 코드화한 것이라는 3가지 주요 데이터 스트림이 있으며 15분마다 업데이트된다.

더불어 전 세계 각지 뉴스 번역도 GDELT 프로젝트 특징 중 하나다. GDELT 프로젝트는 세계 최대 규모 실시간 뉴스 번역 시스템인 GDELT 트랜스링궐 플랫폼(GDELT Translingual Platform)을 활용하고 있으며 GDELT가 모니터링하는 65개 언어 글로벌 뉴스 전체가 실시간으로 번역되어 파이프라인 전체에서 처리되고 있다.

공식 블로그에서는 GDELT 프로젝트의 방대한 데이터셋에 기반한 다양한 분석·인사이트가 발신되고 있다. 예를 들어 지난 2월 3일 GDELT 프로젝트는 구글 AI인 제미나이 3 플래시(Gemini 3 Flash)를 활용해 세계 각지 뉴스를 분석하고 정부·기업 리더 교체에 관한 발표를 자동 추출해 지식 그래프로 정리하는 실험을 공개했다. 뉴스 기사에서 인사 이동 정보를 정리할 수 있을 뿐 아니라 그 배경에 있는 정치·경제적 의미를 추론하고 전 세계 권력 구조 변화를 분석하는 보고서를 AI가 생성하는 시도다.

또 GDELT 프로젝트는 미국 2026년도 국방수권법(NDAA)이라는 3,100페이지·51만 단어에 달하는 방대한 법안을 제미나이 3 프로에 한 번에 입력시켜 법안 전체를 단일 인포그래픽으로 변환하는 데모를 진행했다. 나아가 분석과 실험을 거듭한 결과 법안 전체 테마 분석, 특정 분야 해설, 관련 법안 정리, 나아가 의원이 제기할 법한 질문 작성까지 수행하는 실험도 공개했다. PDF를 텍스트화해 행 번호 삭제 및 텍스트 클린업 작업을 거쳐 문서 전체를 81만 토큰으로 압축, AI가 법안을 단일 문서로 분석할 수 있도록 했다고 밝혔다.

2월 11일자 블로그에서는 제미나이를 활용해 25년치 300만 건에 이르는 TV 방송 뉴스를 번역한 결과를 보고했다. 블로그에 따르면 620억 자 이상, 60억 초 방송 시간에 달하는 번역에는 제미나이 2.5 플래시 논-씽킹(Gemini 2.5 Flash Non-Thinking)이 사용되어 1,090억 개 입출력 토큰이 소비됐다고 한다. 번역에 든 비용은 7만 4,634달러로 텍스트 분량을 감안하면 기존에는 수백만 달러가 소요됐을 것으로 추정되는 만큼 대규모 번역 비용이 대폭 낮아졌다고 보고하고 있다.

GDELT 프로젝트가 보인 이런 시도는 AI를 통해 방대한 뉴스와 정부 문서를 횡단 분석할 수 있는 가능성을 보여주는 것으로 지금까지 연구자나 저널리스트가 다루지 못했던 규모 정보를 분석할 수 있게 될 가능성을 제시하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post