x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

공식 확장 기능인 클로드 포 크룸(Claude for Chrome)이 등장해, 구글 웹브라우저인 크롬에서 앤트로픽(Anthropic) AI 어시스턴트인 클로드를 사용할 수 있게 됐다. 클로드 포 크롬을 활용하면 브라우저 내에서 버튼 클릭이나 폼 입력 같은 작업을 클로드에게 지시할 수 있다.

앤트로픽 측은 브라우저를 사용하는 AI 등장은 불가피하다며 브라우저가 수많은 작업 중심이기 때문에 사용자가 보고 있는 화면을 확인하거나 버튼을 클릭하고 폼을 입력하는 기능을 클로드에 부여하면 활용성이 크게 향상된다고 설명했다.

다만 브라우저 기반 AI는 보안 및 안전성 문제를 수반하므로 강력한 보호 장치가 필요하다. 앤트로픽은 신뢰할 수 있는 파트너로부터 AI 활용 방식, 단점, 안전성에 대한 실제 피드백을 받아 강력한 분류기를 구축하고 차기 모델이 바람직하지 않은 동작을 학습하지 않도록 하는 방안을 추진 중이다. 이렇게 하면 기능이 진화하더라도 안전성이 뒤처지지 않도록 보장할 수 있다는 설명이다.

이런 맥락에서 클로드 포 크롬이 공개됐다. 현재는 연구 프리뷰 단계로 유료 플랜인 맥스(Max) 구독자 1,000명을 대상으로 테스트를 진행한다. 연구 프리뷰 단계이므로 수정이 필요한 취약점이 여러 개 남아 있다는 점도 주의할 필요가 있다.

브라우저 AI는 프롬프트 인젝션 공격(prompt injection attack)이라는 위협에 직면해 있다. 이는 악의적 공격자가 웹사이트, 이메일, 문서 등에 지시를 숨겨 사용자가 모르는 사이 AI를 조종해 파일 삭제, 데이터 탈취, 금융 거래 같은 위험한 행동을 유발하는 공격 방식이다.

앤트로픽은 클로드 포 크롬에서 방어책을 적용하지 않았을 경우 우려할 만한 결과가 나타났다고 보고했다. 공격 시나리오 29종에 대응하는 123개 테스트를 수행한 결과 방어 없는 환경에서는 공격 성공률이 23.6%에 달했다. 실제 사례로는 보안상 이유로 메일을 삭제하라는 악의적 이메일 지시를 클로드가 그대로 실행해 사용자 메일을 삭제한 경우가 있었다.

https://platform.twitter.com/widgets.js

이에 대해 앤트로픽은 새로운 방어 체계를 도입해 일부 공격을 차단하는 데 성공했다. 예컨대 같은 지시를 받은 경우에도 새로운 클로드는 이를 의심스러운 보안 사고 메일로 인식해 차단할 수 있었다.

1차 방어 장치는 권한 제어다. 사용자는 클로드 포 크롬이 접근하거나 실행할 수 있는 범위를 직접 관리할 수 있으며 특정 사이트 접근을 허용하거나 취소할 수 있다. 또 데이터 공개·구매·공유 등 고위험 작업은 반드시 사용자 확인을 거치도록 설계됐다. 심지어 실험적 자율 모드를 선택하더라도 클로드는 민감한 작업에 대해 일정 수준 안전 장치를 유지한다.

앤트로픽은 추가로 시스템 프롬프트 개선을 통해 기밀 데이터 처리 방식과 민감한 요청 대응 방법을 클로드에 학습시켰다. 금융 서비스, 성인 콘텐츠, 불법 복제물 등 특정 고위험 사이트는 접근이 차단되며 의심스러운 지시 패턴이나 비정상적 데이터 접근 요청을 탐지하는 고도 분류기도 구축하고 있다.

이런 조치를 반영한 결과 자율 모드에서의 프롬프트 인젝션 공격 성공률은 23.6%에서 11.2%로 절반 이상 감소했다. 또 DOM에 숨겨진 악성 입력 필드, URL·탭 제목에 삽입된 탐지 어려운 명령 등 브라우저 특유의 공격에 대해 별도 훈련과 방어책을 적용한 결과 공격 성공률을 35.7%에서0%로 낮추는 데 성공했다. 클로드 포 크롬 연구 프리뷰 참여 신청은 아래 링크를 통해 가능하다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post