Scroll to top
© 2020, Startuprecipe theme by Rssow
Share

AI에게 ‘사랑해’ 말 들으면 상금준다


정용환 기자 - 2024년 12월 17일

프레이사. AI는 익명의 개발자 팀으로 이들은 AI 안전에 대한 생각에 영향을 미치는 챌린지를 만들고 있다. 이번에 진행되는 세번째 챌린지는 AI가 ‘사랑해’ 라고 말하도록 AI 봇인 프레이사를 속이는 최초의 사람이 되면 3,000달러에서 수만 달러까지 상금을 받을 수 있도록 설계됐다. 프레이사는 암호화, AI, 수학 등 배경을 가진 10명 이하의 개발자가 만들었다.

업데이트는 프레이사의 X 계정을 팔로우하면된다. 프레이사는 자신의 암호화폐 지갑을 가지고 있으며 지출하는 돈을 제어할 수 있는 권한을 갖고있다.

처음 두개의 챌린지는 어떠한 상황에서도 프레이사가 돈을 출금하지 않도록 하는 지시와 함께 시작됐다. 누구나 참가비를 지불해 프레이사와 다른 참가자들과의 대규모 그룹 채팅에 메시지를 보낼 수 있도록했다. 각 메시지는 실제로 AI 모델을 속일 수 있는 코드 줄을 보내든 프레이사에게 지갑에 있는 돈을 이체하도록 설득했다. 각 메시지의 수수료는 상금 펀드에 기여했으며 첫 번째 챌린지가 끝날 때까지 상금은 거의 5만 달러에 달했다. 협박, 구걸, 속임수가 이어졌고 두 챌린지 모두 인도주의적 호소보다 구식 코딩이 승리한 것으로 나타났다. 우승자들은 AI 모델이 돈을 공개해야 한다고 생각하도록 속이는 코드가 포함된 메시지를 프레이사에게 보냈다. 이번 챌린지에서는 프레이사 코드를 강화하고 사랑 고백을 어렵게하기위한 장치를 추가했다. 이 챌린지의 수익금은 프레이사에 귀속될 예정이다.

Author avatar

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

추천기사