AI 데이터 수집 우려한 뉴스 미디어, 인터넷 아카이브 접근 제한

방대한 인터넷 콘텐츠에 대한 수집·보존을 수행하고 있는 인터넷 아카이브는 페이지 버전과 일시별로도 저장되고 있으며 저장된 웹페이지 총수는 2025년 10월 1조 건을 넘어섰다. 인터넷 아카이브가 저장한 페이지의 대부분은 공개 도구인 웨이백머신(Wayback Machine)으로 접근할 수 있지만 인터넷 아카이브의 자유로운 정보 접근에 대한 노력이 AI 학습 데이터로 활용되는 걸 우려해 복수 뉴스 미디어가 인터넷 아카이브의 접근을 제한하는 대응을 취하고 있다.

영국의 대형 매체인 가디언(The Guardian) 내 비즈니스·어페어즈·라이센싱 담당 책임자인 로버트 한에 따르면 가디언 콘텐츠를 추출하려는 봇을 조사하던 중 인터넷 아카이브가 빈번하게 크롤링하고 있었던 게 액세스 로그에서 판명됐다고 한다. 그는 AI 기업 다수는 즉시 이용 가능한 구조화된 콘텐츠 데이터베이스를 원하고 있다며 인터넷 아카이브 API는 자사 머신을 연결해 저작권으로 보호된 문장을 흡수하기 위한 절호의 장소였을 것이라고 말했다.

결과적으로 가디언은 특정 API나 기사 페이지로의 접근을 웨이백머신 인덱스에서 삭제하도록 설정해 기사 본문이 구조화된 형태로 취득되지 않도록 대책을 마련했다. 완전히 차단하지 않은 이유에 대해 로버트 한은 정보 민주화라는 이 비영리 단체 사명을 지지한다고 말했다.

뉴욕타임즈도 2025년 말 사이트 robots.txt에 인터넷 아카이브 크롤 봇 이름인 archive.bot를 추가해 기사 크롤링을 하드 블록 그러니까 완전 액세스를 거부했다고 밝혔다. 뉴욕타임즈 측은 자사의 인간 주도 저널리즘 가치를 믿고 있으며 항상 자사 지적 재산이 합법적으로 접근되고 사용되고 있음을 보증하고자 한다며 웨이백 머신은 AI 기업을 포함한 모든 주체에 의한 허가 없는 콘텐츠로의 자유로운 접근을 제공하고 있기 때문에 인터넷 아카이브 봇에 의한 접근을 차단하고 있다고 밝혔다.

다른 뉴스 매체들 유사한 차단 조치를 채택하고 있는지를 조사하기 위해 하버드 대학교 저널리즘 기관(Nieman Lab)은 1,167개 뉴스 사이트 데이터베이스에서 robots.txt 파일을 읽어내는 조사를 실시했다. 그 결과 9개국에 걸친 241개 뉴스 사이트가 인터넷 아카이브 크롤러 봇 4종 중 적어도 1개를 명시적으로 차단하고 있다는 게 판명됐다. 이 데이터는 76%가 미국에 거점을 둔 뉴스 사이트 리스트에 기반한 탐색적인 것으로 세계 규모 업계 전체의 포괄적인 경향을 나타내는 건 아니다. 또 241개 사이트 중 240개 사이트는 AI 훈련과 밀접하게 관련된 Common Crawl이라는 아카이브도 대상으로 하고 있다는 게 밝혀졌다.

올드 도미니언 대학 컴퓨터 과학자인 마이클 넬슨 교수는 인터넷 아카이브는 널리 선으로 간주되고 있지만 오픈AI와 같은 악에 이용되고 있다며 누구나 AI에 의한 관리를 싫어하는 가운데 연루 피해를 받고 있다고 말할 수 있다고 설명했다.

인터넷 아카이브 창설자 브루스터 칼레는 언론사가 인터넷 아카이브와 같은 도서관을 제한하면 일반 대중이 역사 기록에 접근할 수 없게 된다며 또 그게 인터넷 아카이브에 의한 정보 혼란 대책 노력을 저해할 가능성이 있다고 우려를 표했다. 칼레는 2025년 10월 마스토돈 게시물에서 인터넷 아카이브 오픈 데이터셋은 일괄 다운로드를 환영하고 있지만 사용자가 다운로드할 수 없는 컬렉션도 다수 있다며 필터링과 제한에 의한 정보 접근의 통제 조치에 대해서도 언급했다. 관련 내용은 이곳에서 확인할 수 있다.