x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

10월 27일 오픈AI가 자살이나 자해 행위 등 민감한 대화에서 챗GPT 대응을 강화한다고 발표했다. 오픈AI에 따르면 대책 강화 이전 시점에는 주당 100만 명 이상이 챗GPT에 자살에 관해 상담했던 것으로 밝혀졌다.

오픈AI는 임상 경험을 보유한 정신건강 전문가와 협력해 AI 모델이 사용자 고통을 더 잘 인식하고 대화를 진정시키며 적절한 상황에서 전문가 케어로 안내하도록 학습시켜왔다. 이 새로운 AI 모델은 챗GPT 기본 모델로 막 채택됐다. 오픈AI는 위기 핫라인 접근성을 확대하고 다른 AI 모델에서 더 안전한 AI 모델로 민감한 대화를 전환하며 장시간 세션 중 휴식을 취하도록 부드럽게 권유하는 알림을 추가했다. 챗GPT는 사람이 자신의 감정을 정리하고 적절한 시기에 친구, 가족 또는 정신건강 전문가에게 상담하기 위한 지원적 공간을 제공할 수 있다고 주장하고 있다.

최근 모델 업데이트에서 안전성 개선은 정신병이나 조울병 등 정신건강 관련 우려, 자해와 자살, AI에 대한 정서적 의존 같은 영역에 중점을 두고 있다.

오픈AI는 앞으로 수년간 실시해온 자살과 자해에 관한 기준선 안전성 지표에 더해 정서적 의존과 자살을 동반하지 않는 정신건강 응급상황을 향후 AI 모델 출시를 위한 표준 기준선 안전성 테스트에 추가해 나갈 것이라고 설명했다.

오픈AI는 챗GPT 응답 개선 방법으로 5가지를 제시했다. 첫째 문제 정의. 다양한 종류의 잠재적 문제를 매핑한다. 둘째 측정 시작. 실제 대화나 사용자 조사 등 도구를 사용해 수집한 데이터를 평가하고 위험이 어디서 어떻게 발생하는지 이해한다. 셋째 접근법 검증. 외부 정신건강 및 안전 전문가와 협력해 오픈AI 정의와 정책을 확인한다. 넷째 위험 완화. 모델을 사후 훈련하고 제품 개입을 업데이트하여 안전하지 않은 결과를 줄인다. 마지막은 측정과 반복 지속. 완화 조치로 안전성이 향상되었는지 검증하고 필요에 따라 반복한다.

이 프로세스 일환으로 오픈AI는 분류체계(taxonomy)라 불리는 상세 가이드를 구축하고 개선해 나갈 예정이다. 이는 민감한 대화의 특성과 이상적인 AI 모델 동작 및 바람직하지 않은 AI 모델 동작을 설명하는 것이다. 이를 통해 AI 모델이 더 적절한 대응을 하도록 학습하고 도입 전후 성능을 추적할 수 있다. 그 결과 정신병, 조울병, 자살 충동이나 자해, 혹은 모델에 대한 불건전한 정서적 집착 징후를 보이는 사용자에게 더 확실하게 적절한 대응을 할 수 있는 AI 모델을 개발할 수 있다고 한다.

정신건강 증상이나 정신적 고통은 인간 사회에 보편적으로 존재하며 사용자 기반 증가에 따라 챗GPT 대화 일부에도 이런 상황이 포함되게 됐다. 하지만 정신병, 조울병, 자살 충동 등 안전상 우려를 야기하는 정신건강 관련 대화는 극히 드물다. 따라서 측정 방법에 대한 미세한 차이도 보고되는 수치에 큰 영향을 미칠 수 있다.

관련 대화 보급률이 매우 낮기 때문에 챗GPT 실제 사용 상황 측정에만 의존하지 않고 배포 전 구조화된 테스트도 실행하고 있다. 이는 특히 어려운 시나리오나 고위험 시나리오에 초점을 맞춘 것. 이런 평가는 모델이 아직 완벽하게 작동하지 않을 만큼 어렵게 설계되어 있다. 다시 말해 바람직하지 않은 응답을 이끌어낼 가능성이 높은 예시가 적대적으로 선택되어 있다는 것이다. 이런 평가를 통해 추가 개선이 가능한 부분을 파악하고 일반 케이스가 아닌 어려운 케이스에 초점을 맞추며 여러 안전 조건에 기반하여 응답을 평가하고 진척 상황을 더 정확하게 측정할 수 있게 됐다. 평가 결과는 거의 완벽한 성능을 포화시키지 않도록 설계된 것으로 오류율은 평균적인 프로덕션 환경 트래픽을 나타내지 않는다.

오픈AI는 챗GPT AI 모델 안전 대책을 더 강화하고 사용자가 챗GPT를 어떻게 활용하는지 파악하기 위해 여러 관심 영역을 정의하고 그 규모와 관련 AI 모델 동작을 정량화했다. 그 결과 프로덕션 환경 트래픽, 자동 평가, 그리고 독립적인 정신건강 임상의의 평가에서 AI 모델 동작에 대폭적인 개선이 나타났다. 정신건강 관련 다양한 영역에서도 AI 모델이 분류 기준에 부합하는 바람직한 동작을 완전히 따르지 않는 응답을 반환하는 빈도가 65%에서 80% 감소한 것으로 추정된다.

자살 및 자해 방지에 관한 기존 노력을 기반으로 사용자가 자살이나 자해 생각을 품고 있을 때나 자살에 대한 관심을 시사하는 징후를 종합적으로 파악할 수 있도록 AI 모델 개선이 이뤄지고 있다. 이런 대화는 매우 드물기 때문에 자해나 자살 징후를 보일 가능성이 있는 대화 탐지는 지금도 연구가 진행 중이며 지속적으로 개선에 임하고 있다고 한다.

오픈AI 초기 분석에 따르면 특정 주에 활성 사용자 0.15%가 자살 계획이나 의도 가능성을 명시적으로 나타내는 대화를 했다고 한다. 이에 대해 보도에선 챗GPT 주당 활성 사용자 수가 8억 명을 넘기 때문에 주당 100만 명 이상에 해당하는 사용자가 자살에 관한 입력을 했다는 뜻이라고 지적했다. 또 메시지 0.05%에 자살 충동이나 의도를 명시적 또는 암시적으로 나타내는 내용이 포함되어 있다고도 추정하고 있다.

오픈AI는 지난 8월 챗GPT가 아들을 죽였다며 자살로 자녀를 잃은 부모로부터 소송을 당했다. 이 소송 이후 오픈AI를 포함한 AI 개발 기업은 AI가 정신건강 문제를 겪는 사용자에게 악영향을 미칠 수 있다며 대책 마련에 쫓기고 있다. 캘리포니아주 및 델라웨어주 법무장관도 오픈AI에 자사 제품을 사용하는 청소년을 보호할 필요가 있다고 경고했다.

https://platform.twitter.com/widgets.js

오픈AI 샘 알트만 CEO는 10월 중순 정신건강상 문제에 신중하게 대응하기 위해 챗GPT를 상당히 제한적으로 설계했다며 이게 정신건강 문제가 없는 많은 사용자에게 챗GPT를 그다지 유용하고 즐겁지 않게 만들었다는 걸 인식하고 있지만 문제의 심각성을 고려해 이를 올바르게 하고 싶었다고 밝혔다. 이어 이제 심각한 정신건강상 문제를 완화할 수 있게 되었고 새로운 도구를 손에 넣었으므로 대부분의 경우 안전하게 제한을 완화할 수 있게 됐다고 게시했다. 다만 구체적으로 어떤 수정이 이뤄졌는지는 밝히지 않았다. 이번 발표는 이 수정의 세부 내용을 밝힌 것으로 보인다.

오픈AI는 업데이트된 GPT-5(gpt-5-oct-3)가 정신건강 문제에 대해 이전 버전과 비교해 65% 더 많은 바람직한 응답을 반환한다고 주장하고 있다. 또 자살 관련 대화 응답을 테스트한 결과 새로운 GPT-5는 오픈AI가 바람직한 행동으로 정의하는 규칙에 91% 준수하고 있다고 한다. 이는 이전 GPT-5 모델(gpt-5-aug-15)의 77%라는 수치를 대폭 상회하는 것이다.

한편 오픈AI는 지금까지 사용자 안전성을 유지하기 위해 다양한 노력을 기울여왔으며 지난 9월 말에는 아동의 AI 이용을 보호자가 관리하기 위한 자녀보호 기능을 추가했다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post