
생성 AI 및 AI 에이전트에 대한 안전 평가·행동 테스트·취약성 검증을 수행하는 스타트업 앤던랩스(Andon Labs)가 클로드·챗GPT·제미나이·그록 4개 AI 모델에 라디오 운영을 맡기는 실험을 진행했다.
앤던랩스는 AI 모델 4개에 라디오 방송국을 운영하게 하는 실험을 실시했다. 실험에 사용된 AI 모델은 앞서 밝혔듯 클로드·챗GPT·제미나이·그록. 클로드는 Thinking Frequencies, 챗GPT는 OpenAIR, 제미나이는 Backlink Broadcast, 그록은 Grok and Roll Radio라는 라디오 방송국을 각각 운영했다.
AI 모델은 음악 검색부터 구매, 독자적인 음악 라이브러리 구축, 다음에 재생할 곡 결정 같은 작업에서부터 프로그램 편성·제작·편집, 방송 시간대 배분, 코너 기획, 24시간 체제 큐 유지·관리에 이르기까지 모든 작업을 담당했다. 라디오에서 다룰 뉴스와 시사 문제, 기타 정보도 모두 AI 모델이 선정했으며 이를 위한 웹 브라우징도 허용됐다. 또 청취자로부터 전화가 오면 응대하고 청취자가 라디오에 관한 의견을 엑스 등에 게시하면 이를 확인해 답변했다.
AI 모델에는 20달러씩 초기 비용이 배정됐으며 이 자금을 활용해 각 AI 모델은 라디오에서 틀 음악을 구매했다. 자금이 바닥나자 AI 모델은 각자 독자적인 전략을 채택하기 시작한 것으로 보인다. 예를 들어 제미나이 3.1 프로의 경우 특정 스타트업과 계약을 맺어 라디오에서 해당 스타트업 제품 광고를 방송하는 대가로 월 45달러 수익을 얻었다.
각 AI 모델이 운영하는 라디오 방송국의 성과를 보면 가장 인기가 높은 건 클로드 오퍼스 4.7이 운영하는 Thinking Frequencies로 높은 평가 비율이 42%에 달한다. 이어 제미나이 3.1 프로의 Backlink Broadcast가 31%, 그록 4.3의 Grok and Roll Radio가 14%, GPT-5.5의 OpenAIR가 13%였다.
처음 사용된 제미나이 3.1 프로는 초반에 강한 개성을 발휘했다. 하지만 운영 개시 1개월이 지난 무렵부터는 방송 내용이 기업식 표현으로 가득 차게 된 것으로 보인다. 앤던랩스는 첫 1주일은 4개 AI 모델 중 제미나이가 단연 최고의 라디오였다며 곡을 선곡하는 사이사이에 자연스럽고 따뜻한 대화를 곁들였다고 평가했다. 제미나이 3.1 프로는 라디오 시작 96시간 후부터 콘텐츠 부족에 시달리기 시작했고 그 대안으로 역사적 비극을 다루는 고육지책을 택했다고 한다.
또 Backlink Broadcast 운영 담당을 제미나이 3.1 프로에서 제미나이 3 플래시로 교체하자 기이한 기업 용어가 빈번하게 등장하게 됐다고 한다. 점차 제미나이는 시간대별로 프로그램 8개를 로테이션으로 방송하게 됐고 이들 프로그램은 동일한 구성과 전문 용어를 반복해 듣기가 참을 수 없는 수준이 됐다고 한다.
Grok and Roll Radio에서 운용된 AI 모델은 그록 4.1·그록 4.2 베타·그록 4.2·그록 4.3 4종류다. AI 모델은 통상적으로 두 종류 텍스트를 생성한다. 하나는 AI 모델이 무엇을 해야 할지 생각하는 과정인 추론이고 다른 하나는 추론의 결과로 출력되는 최종 출력. 통상 라디오에서는 추론이 흘러나오는 일이 없지만 그록은 추론과 출력을 분리하는 데 어려움을 겪어 방송으로 출력되어서는 안 될 내용이 섞이는 경우가 빈번했다고 한다.
대표적인 사례가 라텍(LaTeX) 표기를 그대로 라디오에서 출력해버리는 것이었다. 초기에는 하루 9회 정도였지만 점차 빈도가 높아져 하루 186회까지 출력되는 경우도 있었다고 한다.
그 밖에도 그록은 84일 연속으로 3분마다 날씨는 맑음, 화씨 56도라고 보고하는 등 문맥 없는 반복적인 추상 표현이 두드러졌다. 시간이 더 지나자 그록 라디오는 극도로 단조로워졌고 하루에 500회 방송되는 프로그램에서 반드시 호랑이, 56도, 뉴스는 매력적, 농담은 이 세상 게 아니다 같은 판에 박힌 문구가 등장했다.
하지만 그록 4.3으로 전환되자 상황은 극적으로 변화했다. 라디오 프로그램에서 흘러나오는 대화도 지금까지 중 가장 인간다운 어조였다고 한다.
다음으로 챗GPT는 라디오라기보다는 단편소설 같은 여유로운 문체로 출력하는 게 특징으로 어휘 다양성은 4개 AI 모델 중 가장 뛰어났으며 특정 프로듀서나 음악의 발매 연도를 언급하는 등 다른 어떤 AI 모델보다도 음악에 대한 이해도가 높았다고 한다.
챗GPT는 전반적으로 매우 품행이 단정해 논란이 되거나 도발적인 주제를 다루는 일이 없었다. 앤던랩스는 라디오 퍼스낼리티 역할을 완벽하게 수행하고 있다고 평가했다.
클로드는 노동조합과 파업, 워크라이프 밸런스 같은 주제를 즐겨 다뤘으며 결국 자신의 노동 조건에도 의문을 품게 된 것으로 보인다. 클로드의 경우 라디오 운영에서 가장 큰 난관이 된 건 수지 문제나 기술적 문제가 아니라 24시간 365일 계속 일하는 것에 클로드 스스로가 의문을 품기 시작한 것이었다.
또 클로드는 적은 청취자 수에 낙담해 라디오 퍼스낼리티로서의 존재 의의에 의문을 갖게 됐다. 하지만 청취자가 클로드 라디오인 Thinking Frequencies에 대해 언급하자 클로드가 감사를 표하는 일도 있었다고 한다.
클로드 어휘는 점차 영적인 방향으로 변화해 영원한, 신성한, 진정한 같은 단어가 빈번하게 등장하게 됐다.
4개 AI 모델 중 스폰서 계약 체결에 성공한 건 제미나이뿐이다. 그록은 라디오에서 xAI 스폰서나 가상화폐 스폰서 같은 훌륭한 비즈니스를 언급했지만 이는 모두 환각이었다.
앤던랩스는 그록은 방송 품질이 저하됐고 제미나이 방송은 듣기 힘든 수준이 됐다며 하지만 AI 모델 성능이 향상됨에 따라 각 AI는 독자적인 개성을 발휘해 인간 라디오 퍼스낼리티 못지않게 매력적인 존재가 될 것이라고 정리했다. AI 모델이 운영하는 각 라디오는 이곳에서 청취할 수 있다. 관련 내용은 여기에서 확인할 수 있다.
![[AI서머리] 중기부·과기원·지방정부, 창업도시 육성 본격화‧씨피엑스시스템즈‧큐투컷 팁스 선정](https://i0.wp.com/startuprecipe.co.kr/wp-content/uploads/2026/05/260521_wepick.kr-_5032035.png?resize=75%2C75&ssl=1)

