앤트로픽, 인간 AI 활용도 검증 지표 공표

인류는 AI를 생활에 도입하고 있지만 모든 사람이 능숙하게 활용하고 있는 건 아니다. AI 도구 클로드(Claude)를 개발하는 앤트로픽이 실시한 조사에서는 AI 사용 방식이 사람마다 다르다는 사실이 명확히 드러났다.

AI 사용자 중에는 AI가 출력한 답변을 그대로 믿는 사람도 있는 반면 AI에 재지시를 내리거나 별도 방법으로 정보를 검증하며 개선을 시도하는 이들도 있다. 앤트로픽은 이처럼 AI에 대한 인간 행동 유연성 그러니까 유창성(fluency)을 검증하는 지표로 AI 유창성 지수라는 개념을 만들고 사용자 행동을 추적하는 조사를 실시했다.

앤트로픽은 AI를 사용할 때 인간이 취할 것으로 예상되는 24가지 유창성 행동을 목록화했다. 그리고 앤트로픽 웹사이트(Claude.ai)에서 지난 1월 7일간 이루어진 9,830건 대화를 분석했다. 24개 항목 중 13개 항목은 웹사이트 외부에서 이루어지는 행동이어서 추적이 불가능했으며 대화를 나머지 11개 항목에 분류해 어떤 행동이 많은지를 조사했다.

결과를 보면 반복해 개선한다(85.7%), 도움을 구하기 전에 목표를 명확히 한다(51.1%), 좋은 상태 예시를 제시한다(41.1%), 필요한 형식이나 구성을 지정한다(30%), 대화 모드를 설정한다(30%), 말투나 문체 선호도를 전달한다(22.7%), AI에 맥락이 부족할 가능성을 파악한다(20.3%), 산출물 대상 독자를 정의한다(17.6%), AI 추론이 타당하지 않을 경우 의문을 제기한다(15.8%), 실행 전에 접근 방식에 대해 AI에 상담한다(10.1%), 중요한 사실이나 주장을 확인한다(8.7%)는 것이다.

데이터에서 가장 두드러진 경향 중 하나는 ‘반복과 개선’과 다른 모든 AI 유창성 행동 사이 연관성이다. 표본 내 85.7% 대화에서는 첫 번째 답변을 그대로 수용하고 새로운 과제로 넘어가는 게 아니라 이전 대화를 바탕으로 작업을 개선하는 ‘반복과 개선’이 나타났다. 이런 대화에서는 다른 유창성 행동 발생률도 크게 높아졌다.

평균적으로, 반복과 개선을 포함한 대화에서는 추가로 2.67회 유창성 행동이 나타났다. 이는 반복과 개선을 포함하지 않는 대화 평균 1.33회보다 2배에 해당한다. 그 중에서도 클로드 출력을 평가하는 행동에서 두드러졌다. 반복과 개선을 수행하는 대화에서는 사용자가 클로드 추론에 의문을 제기할 가능성이 5.6배 높았으며 부족한 맥락을 파악할 가능성은 4배 높았다.

표본 중 12.3% 대화에서는 코드, 문서, 인터랙티브 툴 등 산출물이 생성됐다. 이런 대화에서는 설명이나 위임 테마로 분류되는 행동이 크게 증가했다. 예를 들어 산출물을 생성하지 않는 대화와 비교해 목표를 명확히 하는 행동, 형식을 지정하는 행동, 예시를 제시하는 행동, 반복하는 행동이 증가했다. 다시 말해 작업 초기 단계에서 AI에 대해 보다 구체적으로 방향을 제시하고 있는 것이다.

하지만 이런 높은 지시성은 평가나 식별력 향상과는 일치하지 않았다. 오히려 그 반대로 산출물이 생성되는 대화에서는 부족한 맥락을 파악할 가능성, 사실 확인을 수행할 가능성, 모델 추론을 설명하게 할 가능성이 낮아졌다.

이에 대해 앤트로픽은 클로드가 완성도 높은 기능적으로 보이는 산출물을 생성하고 있어 추가로 의문을 제기할 필요가 없다고 느껴지는 것일 수 있다며 외관상 완성된 것처럼 보이면 그대로 완성품으로 취급될 수 있고 혹은 사용자가 독자적으로 코드를 실행하거나 테스트하거나 동료와 공유하는 등 웹사이트 외부에서 어떤 검증을 하고 있는 것일 수도 있다고 분석했다.

앤트로픽은 이런 항목을 AI 협업 현황을 나타내는 기준 지표인 AI 유창성 지수로 확립하고 향후 변화하는 AI 모델에 따른 인간 행동 진화를 추적하는 기반으로 채택할 걸 발표했다. 관련 내용은 이곳에서 확인할 수 있다.