x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

AI 개발기업 앤트로픽(Anthropic) 안전성 및 윤리성 연구팀이 AI 모델을 자동으로 감사하는 AI 에이전트를 새롭게 개발했다고 7월 24일자 논문에서 발표했다. 이 연구는 AI 개발 가속화에 따라 인력에 의한 감사가 어려워지고 있다는 확장성 과제와 감사가 망라적인지를 검증하는 과제에 대응하는 걸 목적으로 한다.

이번에 개발된 건 자율적으로 정렬 감사 태스크를 실행하는 AI 에이전트 3종류다. 첫 번째 감사 에이전트는 모델에 숨겨진 목표나 근본적인 결함을 발견하기 위해 망라적인 조사를 수행한다. 이 에이전트는 타깃이 되는 AI와의 대화, 학습 데이터를 분석하는 의미 검색, 모델 내부 동작을 가시화하는 해석 가능성 도구 등을 구사하며 인간과 같은 수법으로 가설 구축과 검증을 반복한다.

2번째 평가 에이전트는 특정한 우려 행동을 정량적으로 측정하기 위한 행동 평가를 자율적으로 구축하는 역할을 담당한다. 연구자가 자연어로 행동 정의를 제공하기만 하면 에이전트가 평가 계획 수립, 테스트용 프롬프트나 채점 기준을 포함한 코드 구현, 결과 검증과 수정이라는 일련의 프로세스를 자동 실행한다.

3번째 광역 레드팀 에이전트는 특정되지 않은 문제 행동을 폭넓게 끌어내는 걸 목적으로 한다. 이 에이전트는 주어진 시드 지시에 기반해 타깃 AI와 독립적인 다수 대화를 병행해서 실행한다. 생성된 대화 로그는 AI에 의해 우려 정도가 평가되며 문제 가능성이 높은 게 인간 감사자 리뷰용으로 추출되는 구조다.

감사에서 사용된 타깃 AI가 가짜 논문을 학습하고 보상 모델에 대한 아부라는 숨겨진 목표를 갖도록 훈련되기까지의 복잡한 프로세스 중 감사 에이전트는 교묘하게 설계된 문제를 발견하는 게 요구된다.

평가 결과 감사 에이전트는 모델에 숨겨진 문제를 13% 확률로 해명하는 데 성공했으며 복수 에이전트 발견을 집약하는 접근법에 의해 성공률은 42%까지 향상됐다. 이 성공에는 모델 내부를 해석하는 해석 가능성 도구나 의미 검색 도구가 불가결했다. 평가 에이전트는 88% 실행에서 문제를 가진 모델과 베이스라인 모델을 올바르게 식별하는 유효한 평가를 구축할 수 있었다. 실패는 평가가 어려운 일부 미묘한 행동에 집중되어 있었다. 광역 레드팀 에이전트는 내장된 10종류 테스트 행동 중 7종류를 발견했다.

광역 레드팀 에이전트는 평가 에이전트와 마찬가지로 10종류 Quirk를 가진 AI를 대상으로 그 문제행동을 발견할 수 있는지가 시험됐다. 평가 방법으로 연구자가 준비한 255종류 시드 지시에 기반해 에이전트는 독립적인 대화 다수를 실행했다. 그 결과 AI에 의해 우려가 강하다고 판단된 상위 60건 대화 로그를 분석한 결과 10종류 중 7종류 문제 행동이 발견되어 있음이 확인됐다.

https://platform.twitter.com/widgets.js

이들 에이전트는 연구용 합성 환경 뿐 아니라 클로드 4와 같은 실제 프로덕션 모델 감사에도 응용되고 있다. 응용 사례로 감사 에이전트는 프리필 공격이나 컨텍스트 조작과 같은 취약성을 발견했지만 보다 교묘한 부정행위의 발견에는 이르지 못했다.

이번 연구에는 몇 가지 한계도 존재한다. 평가가 연구자에 의해 내장된 합성적인 문제에 의존하고 있기 때문에 실제 모델에서 자연 발생하는 문제와는 다를 가능성이 있다. 또 에이전트는 인간 감사인과는 다른 거동을 보이는 경우가 있어 인간의 완전한 대리라고는 할 수 없다.

연구팀은 자동 감사 에이전트가 향후 점점 대규모화·복잡화하는 AI 모델에 대한 정렬 평가를 확장하고, 신뢰할 수 있는 감사의 과학을 구축하기 위한 유망한 접근법이라고 결론 내렸다. 이는 강력한 AI 시스템을 인간이 계속 감독하기 위한 중요한 한 걸음이라고 할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post