앤트로픽, 금융‧보험업계 겨냥한 클로드 에이전트 발표했다

앤트로픽(Anthropic)이 금융 서비스 및 보험업계를 대상으로 클로드에서 활용 가능한 새로운 에이전트 템플릿 10종을 발표했다. 금융기관에서 시간이 많이 소요되는 조사, 자료 작성, 대조 확인, 감사 준비, 고객 확인 같은 작업을 클로드가 업무 흐름에 맞춰 지원하는 방식.

앤트로픽에 따르면 각 에이전트 템플릿은 스킬(Skill), 커넥터(Connector), 서브에이전트(Sub-agent) 조합으로 구성된다. 스킬은 업무 절차와 전문 지식을 정리한 지침서이며 커넥터는 사내 시스템이나 외부 데이터 벤더에 안전하게 접속하는 기능이다. 서브에이전트는 비교 대상 기업 선정이나 계산 확인 등 세부 작업을 담당하는 클로드다.

금융 분야 에이전트 템플릿은 모두 10종이다. 기업은 이 템플릿을 자사 규정, 리스크 정책, 승인 절차에 맞게 커스터마이징할 수 있다. 먼저 피치 빌더(Pitch builder)는 타깃 리스트를 작성하고 유사 기업 분석을 수행하며, 클라이언트 미팅용 피치북을 작성한다. 미팅 프리페어러(Meeting preparer)는 통화나 회의 전에 클라이언트 및 거래 상대방에 관한 개요 자료를 정리한다. 어닝스 리뷰어(Earnings reviewer)는 실적 설명회 녹취록과 공시 자료를 분석해 재무 모델을 업데이트하고 투자 판단과 관련한 주요 변화를 추출한다. 모델 빌더(Model builder)는 공시 자료, 데이터 피드, 애널리스트 입력 내용을 바탕으로 재무 모델을 작성·업데이트한다.

다음으로 마켓 리서처(Market researcher)는 업계 및 발행사 동향을 추적하고 뉴스·공시 자료·증권사 리서치를 요약하며 신용 심사 및 리스크 확인 관련 항목을 추출한다. 밸류에이션 리뷰어(Valuation reviewer)는 평가액을 비교 대상 기업, 평가 방법론, 자사 심사 기준과 대조해 확인한다. 제너럴 레저 리콘사일러(General ledger reconciler)는 총계정원장 계정 과목을 대조하고 공식 회계 기록을 기준으로 순자산가치를 계산한다. 먼스엔드 클로저(Month-end closer)는 월말 결산 체크리스트를 실행하고, 분개를 작성하며 월간 결산 리포트를 생성한다. 스테이트먼트 오디터(Statement auditor)는 재무제표의 정합성, 완전성, 감사 준비 상태를 점검한다. KYC 스크리너(KYC screener)는 법인 파일을 정리하고 원천 자료를 확인하며 컴플라이언스 심사를 위한 에스컬레이션 자료를 작성한다.

앤트로픽은 마이크로소프트 365와의 연계도 강화하고 있다. 엑셀에서는 재무 모델 작성 및 수식 검증을, 파워포인트에서는 원본 데이터에 맞춘 자료 업데이트를, 워드에서는 신용 메모 및 사내 문서 작성을 지원한다. 아웃룩을 위한 받은 편지함 정리 및 답장 초안 작성 기능도 예정되어 있다.

금융 데이터와의 연결처도 확대됐다. 기존 팩트셋(FactSet), S&P 캐피털 IQ, MSCI, 피치북, 모닝스타, LSEG에 더해 던앤브래드스트리트(Dun & Bradstreet), 피스컬 AI(Fiscal AI), 파이낸셜 모델링 프렙(Financial Modeling Prep), 가이드포인트(Guidepoint), IBIS월드, SS&C 인트라링크스(SS&C IntraLinks), 서드 브리지(Third Bridge), 베리스크(Verisk) 등이 새롭게 추가됐다. 신용평가 대형사 무디스는 신용등급 및 기업 데이터를 클로드 내에서 활용할 수 있는 MCP 앱을 제공할 예정. 보험 분야에서는 베리스크의 손해보험, 스페셜티 보험, 인수 심사, 보험금 청구, 리스크 분석 데이터와의 연계가 두드러진다.

앤트로픽은 금융기관용 시스템 대형사 FIS가 클로드를 활용해 자금세탁방지(AML) 조사 소요 시간을 며칠에서 몇 분으로 단축하는 에이전트를 구축하고 있다고도 밝혔다. FIS는 향후 신용 판단, 부정 방지, 예금 이탈 방지 등의 용도에도 클로드를 도입할 계획이다. 보도에서는 앤트로픽이 금융기관 대상 AI 시장에서 입지를 강화하려 한다는 점이 주목받고 있다.

다만 앤트로픽은 금융 업무를 완전 자동화한다고 설명하지는 않는다. 금융기관에서는 수치 오류나 설명 불가능한 판단이 큰 문제로 이어질 수 있는 만큼 고객에게 제출하는 자료, 당국 대응, 사내 시스템 등록, 거래로 이어지는 판단에서는 인간 확인·수정·승인이 전제된다고 밝혔다.

새로운 클로드 에이전트 템플릿은 깃허브( 금융 서비스 마켓플레이스(financial services marketplace)에서 이미 공개됐다. 이용하려면 클로드 코워크 또는 클로드 코드 유료 플랜에 가입하거나 퍼블릭 베타 버전인 클로드 플랫폼 매니지드 에이전츠(Managed Agents)를 이용해야 한다.

클로드 포 엑셀을 비롯해 파워포인트 및 워드 애드인은 정식 출시됐으며 클로드 포 아웃룩도 곧 출시될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

한편 앤트로픽의 멀티에이전트 시스템인 클로드 리서치(Claude Research)는 복수 AI 에이전트가 자율적으로 연계해 태스크를 처리하는 구조를 갖추고 있으며 AI 연구 일부 자동화로 이어질 가능성이 있다는 지적이 나오고 있다. 앤트로픽 공동 창업자 잭 클라크(Jack Clark)는 2028년 말까지 인간이 개입하지 않아도 AI가 차세대 AI를 연구·개발할 수 있는 상태에 도달할 가능성이 60% 이상이라고 주장했다.

클라크는 최근 AI 코딩 능력과 자율적인 연구 능력 발전을 근거로 AI 연구가 엔드투엔드로 자동화되는 시대에 살고 있다고 믿는다고 밝혔다. 아울러 이 같은 진보가 계속된다면 예측 불가능한 미래로 루비콘강을 건너게 될 것이라며 자율적으로 후계 시스템을 구축할 수 있을 만큼 강력한 AI 시스템이 2028년 말까지 실현될 가능성이 60% 이상이라는 견해를 피력했다.

클라크가 근거로 제시한 건 최근 급격한 AI 능력 향상. 소프트웨어 개발 능력을 측정하는 SWE-벤치(SWE-Bench)를 예로 들면 2023년 기준 최고 점수는 클로드 2가 기록한 2%에 불과했지만 지난 4월 공개된 클로드 미토스 프리뷰(Claude Mythos Preview)는 93.9%를 기록했다. 일부 SWE-벤치에는 중대한 문제가 있어 최상위 점수와 상위 점수를 유의미하게 구별할 수 있는지에 대한 의구심도 있지만 수년 만에 대폭 향상된 것만은 분명하다.

또 AI 시스템이 AI 자체 연구개발을 수행하는 능력 평가에 초점을 맞추는 연구 기관 메트르(METR) 추정에 따르면 AI가 인간 개입 없이 지속적으로 작업할 수 있는 시간도 빠르게 늘어나고 있다. 2022년 GPT-3.5는 30초 규모 태스크만 처리할 수 있었던 반면 2024년 GPT-4 o1에서는 4분으로 늘었고 2025년에는 GPT 5.2(High)가 6시간을 달성했다. 지난 2월 발표된 클로드 오퍼스 4.6은 12시간 규모 태스크를 수행할 수 있는 단계에 이른 것으로 알려졌다.

메트르에서 오랫동안 AI 예측을 담당해온 아제야 코트라(Ajeya Cotra)는 지난 1월 세운 AI 발전 관련 예측이 불과 2개월 만에 보수적으로 느껴질 만큼 진보가 눈부시다고 평가하며 2026년 말까지 AI 시스템 처리 시간은 100시간을 넘어설 것이라는 전망을 내놓았다.

클라크에 따르면 AI 연구자 태스크 상당수는 천재적인 영감보다는 데이터 클리닝, 데이터 판독, 실험 시작 등 인간이 수 시간을 들여 수행하는 성실한 작업에 집약된다. AI 연속 처리 시간이 충분히 늘어나면 AI 연구자 작업 전체가 처리 범위 안에 들어올 것으로 본다. 예컨대 AI 연구에서 중요한 작업 중 하나인 논문을 읽고 결과를 재현하는 일과 관련해 계산 재현성 에이전트 벤치마크인 코어-벤치(CORE-Bench)에서 발표 초기 21.5%였던 최고 점수가 1년 만에 95.5%에 도달했을 만큼 AI 처리 능력은 향상되고 있다.

또 특정 과제 해결을 위해 매우 다양한 머신러닝 애플리케이션을 구축하는 MLE-벤치(MLE-Bench)에서도 유사한 발전이 나타나고 있다.

나아가 클라크는 AI가 이미 AI 연구 자체를 부분적으로 자동화하기 시작했다고 지적했다. 앤트로픽이 지난 4월 공개한 자동 얼라인먼트 연구 개념 증명에서는 급속히 발전하는 AI를 인간이 충분히 관리할 수 있는지 검증하는 실험을 진행했다. 실험에서는 인간 또는 클로드 오퍼스 4.6 감독 하에 AI가 AI에 최선의 답변을 제공하기 위한 파인튜닝을 수행하고 그 성능 향상 정도를 기록했다. 그 결과 인간 감독 하에서는 점수가 0.23에 그쳤던 반면 클로드 오퍼스 4.6은 최종적으로 0.97의 점수를 기록하며 크게 앞섰다. 앤트로픽은 AI가 점수를 개선했다는 사실이 최첨단 AI가 이미 AI 얼라인먼트 과학자가 됐다는 걸 의미하지는 않는다고 주의를 당부하면서도 AI가 AI를 감독하는 미래의 가능성을 시사했다.

한편 클라크는 이런 진보가 재귀적 자기 개선으로 이어질 가능성에 대해서도 경고했다. AI가 스스로 연구개발을 가속하기 시작할 경우 광범위한 문제에 공통적으로 발생할 수 있는 근본적인 복합 오류가 생겨나 미미한 오차도 AI가 AI를 반복 생성하는 과정에서 누적될 수 있다. 가령 99.9% 정확한 시스템이 만들어지더라도 50세대 후에는 정확도가 95.12%, 500세대 후에는 60.5%까지 떨어지기 때문에 AI가 AI를 계속 관리하는 것만으로는 정확성을 유지할 수 없다는 이론적 우려가 있다. 또 AI가 AI를 구축하는 게 당연한 수준까지 진보할 경우 경제 및 사회 구조에 지극히 큰 영향을 미치게 되어 다양한 사회적·정치적 혼란이 발생할 수 있다.

이런 모든 데이터와 견해를 종합한 뒤 클라크는 2028년 말까지 자동화된 AI 연구개발 그러니까 최첨단 모델이 자율적으로 후계 버전을 학습할 수 있게 될 가능성은 60%라고 결론지었다. 2027년 실현될 확률은 30%로 이유는 AI 연구에 필요한 창의성과 이단적 통찰력을 2026년 시점 AI 시스템이 혁신적이고 큰 형태로 보여주지 못하고 있어 추가적인 진보가 필요하기 때문. 아울러 2028년 말까지 실현되지 않는다면 현재 기술 패러다임에 근본적인 결함이 있다는 게 드러난 것으로 볼 수 있으며 실현을 위해서는 어떤 형태로든 새로운 발명이 필요할 것이라고 클라크는 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.