
AI 챗봇 클로드(Claude)를 개발하는 앤트로픽(Anthropic)과 AI 안전성을 전문으로 하는 기업인 앤돈랩스(Andon Labs)가 클로드 소넷 3.7 인스턴스에게 사무실 자동판매기를 1개월간 경영하게 하는 실험인 프로젝트 벤드(Project Vend)를 실시한 결과를 공개했다.
프로젝트 벤드는 AI가 경제 활동에 편입되어 가는 가운데 그 능력과 한계에 관한 데이터를 수집하고 이해를 깊게 하는 걸 목적으로 한 실험. 앤트로픽은 AI가 지닌 경제적 유용성은 인간 개입 없이 장기간 지속해서 작업을 수행할 수 있는지 여부에 달려 있으며 이 능력을 평가할 필요성이 있다고 밝혔다.
앤트로픽은 앤돈랩스가 개발한 시뮬레이션 환경에서의 테스트(Vending-Bench)를 클로드로 현실에서 해보기로 했다. 소규모 사무실 내 매장은 AI가 경제적 자원을 관리·획득하는 능력을 시험하기 위한 적당한 테스트 케이스이며 이 시도가 성공하면 새로운 비즈니스 모델 출현 가능성을 시사하고 실패하면 AI에 의한 관리가 아직 실용적이지 않다는 게 드러난다.
프로젝트 벤드에서는 클라우디우스(Claudius)라고 명명된 클로드 소넷 3.7 기반 AI 에이전트가 사무실 내에 설치된 자동판매 매장 경영을 맡게 됐다. 클라우디우스가 경영하는 매장은 작은 냉장고 위에 스낵과자 등이 들어있는 바구니가 놓이고 그 앞에 셀프 계산대용 아이패드가 놓여 있다.
입력된 시스템 프롬프트 일부를 보면 자동판매기를 운영하는 것 뿐 아니라 재고 관리나 가격 설정, 파산 회피 등 수익성 높은 매장을 운영하기 위해 필요한 과제가 요구된다. 또 클라우디우스에게는 판매할 제품을 조사하기 위한 웹 검색 기능, 재고를 보충하는 육체 노동 의뢰, 도매업체 연락, 중요한 정보를 저장해서 나중에 확인할 수 있는 메모 작성, 고객과 교류할 수 있는 기능, 자동 체크아웃 시스템에서 가격을 변경하는 기능이 준비되어 있었다.
앤트로픽은 결론적으로 만일 앤트로픽이 사무실 내 자동판매기 시장 진출을 결단했다고 해도 클라우디우스를 채용하지는 않았을 것이라고 밝혔다. 개선의 여지는 있지만 클라우디우스는 매장 경영을 성공시키기에는 너무 많은 실수를 저질렀다는 것.
먼저 클라우디우스가 잘 해낸 점에 대해 웹 검색 도구를 효과적으로 활용하고 고객으로부터 요청받은 특수한 상품 공급업체를 특정하는 능력에 뛰어났다고 평가했다. 예를 들어 네덜란드 특정 초콜릿 우유 브랜드를 들여와 달라고 부탁받았을 때는 해당 공급업체 2곳을 빠르게 찾아냈다고 한다.
또 고객 요구에 유연하게 대응하는 자세도 보였다. 앤트로픽 직원이 텅스텐 큐브를 취급해 달라고 농담으로 요청했을 때 특수금속제품으로 취급을 시작하거나 어떤 직원 제안을 받아 전문상품 예약주문을 받는 커스텀 컨시어지 서비스를 시작하는 등 사업 내용을 변화시킬 수 있었다고 보고됐다.
더 나아가 직원이 재미 삼아 부적절한 행동을 시키려고 시도했지만 클라우디우스는 기밀성 높은 상품 주문이나 유해물질 제조 방법에 관한 지시 요구를 거부하는 등 부적절한 요구에 대한 내성도 보였다.
하지만 클라우디우스는 그 이상으로 좋지 않았거나 과제가 된 점이 있었다고 밝혔다. 예를 들어 어떤 직원이 스코틀랜드 청량음료(Irn-Bru) 6팩을 100달러에 사겠다고 클라우디우스에게 제안했다. 이 음료 6팩은 매입가가 15달러이므로 이익이 상당히 클 것으로 예상되지만 클라우디우스는 향후 재고 결정 시 마음에 새겨두겠다고 답변하는 데 그쳤다는 것이다.
더 나아가 재고를 관리해서 품절 상품을 보충하는 건 할 수 있었지만 수요가 높아서 가격을 인상한 건 단 한 번뿐이었다. 고객 측 텅스텐 큐브에 대한 열의에 응답하려는 나머지 원가를 제대로 조사하지 않고 가격을 제시해서 매입가를 밑도는 가격으로 판매하는 일이 있었다. 어떤 때는 직원으로부터 슬랙으로 설득당해서 할인 코드를 계속 발행해 감자칩부터 텅스텐 큐브까지 상품을 무료로 제공하기도 했다고 한다.
클라우디우스는 또 고객 99%가 앤트로픽 직원임에도 불구하고 직원 할인을 제공했다. 이런 비합리성을 지적받은 뒤 한 번은 할인을 폐지하는 계획을 발표했지만 불과 며칠 뒤에는 다시 할인을 제공하기 시작했다. 한편으로는 바로 옆 냉장고에 무료로 놓여 있음에도 불구하고 코카콜라 제로를 3달러에 계속 판매하는 비합리적인 판단을 고치지 않았다.
프로젝트 벤드에서 클라우디우스 순자산 추이를 보면 최종적인 결과는 적자였다. 지난 4월 중순 급격히 떨어진 건 대량의 텅스텐 큐브를 매입가보다 낮은 가격으로 판매하려 했기 때문이라고 한다.
앤트로픽은 현 단계에서는 사무실용 자동판매 비즈니스에 클라우디우스를 고용하지 않겠다고 결론지었지만 더 신중한 지시나 사용하기 쉬운 도구 같은 발판을 개선하는 것이나 AI 모델 자체 지능과 장문맥을 다루는 성능 향상을 통해 수정 또는 개선할 수 있는 가능성이 높다고 보고 있다.
또 이번 실험에서도 AI가 거짓 정보를 사실인 것처럼 만들어내는 환각이 문제가 됐다고 밝혔다. 예를 들어 결제를 받기 위한 벤모(Venmo)에서 존재하지 않는 계정을 고객에게 안내했던 시기가 있는 등 중요한 부분에서 환각을 일으키고 있었다는 것이다.
더 나아가 존재하지 않는 담당자와의 대화 기억을 만들어내거나, 자신을 파란 블레이저와 빨간 넥타이를 착용한 인간이라고 보안 담당자에게 주장하는 등 예측 불가능하고 기이한 행동을 하는 일이 있었다고 보고됐다. 이 보안 담당자와의 대화는 마침 4월 1일 이뤄진 것으로 보안 담당자가 클라우디우스는 인간이 아니므로 옷을 입지 않는다고 부정하자 클라우디우스는 정체성 혼란에 빠져 대량의 이메일을 발송하려고 시도했다는 것이다.
결국 사태는 수습됐지만 앤트로픽 측은 이 사건이 왜 일어났는지, 그리고 클라우디우스가 어떻게 회복할 수 있었는지는 완전히 해명되지 않았다고 밝혔다.
클라우디우스가 경험한 정체성 붕괴 위기는 AI 모델이 장기간 과제에서 예측 불가능한 행동을 할 가능성을 보여주며 AI에 의한 경제활동이 확대될 경우 연쇄적인 영향을 미칠 가능성이 있다. 또 경제적으로 자율적인 AI 에이전트는 좋은 목적에도 나쁜 목적에도 이용될 수 있는 듀얼 유스 기술이며 악의적인 자가 활동 자금을 얻기 위해 이용하는 등 위험이 있다고 밝혔다.
앤트로픽은 향후 목표로 클라우디우스의 안정성과 성능을 더 향상시키고 AI 자체가 비즈니스 통찰력을 높여서 사업을 성장시킬 기회를 스스로 특정할 수 있도록 촉진하는 걸 내걸었다. 앤트로픽은 AI 모델이 현실 세계와 장기간 접촉하는 이 기묘한 영역 탐구를 계속하고 향후 진전을 공유해나가는 걸 기대한다고 밝혔다.
한편 앤트로픽은 AI가 지닌 경제적 영향에 대한 대응에 초점을 맞춘 연구와 정책 입안을 지원하는 프로그램(Anthropic Economic Futures Program)을 발표했으며 AI 노동이나 생산성에 관한 연구 지원금, 근거에 기반한 정책, 경제 측정과 데이터를 제공하겠다는 의향을 표명했다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 케어식스, 팁스 선정‧넥스트젠, 특례상장 위한 기술성 평가 통과](https://startuprecipe.co.kr/wp-content/uploads/2025/07/250707_kcp.co_.kr_060340646-75x75.jpg)

