지난달 29일(이하 현지시각) 앤스로픽은 자사 최신 AI 모델 '클로드 오푸스 4'가 자신이 교최되거나 제거될 위기에 처하자 민감 정보를 폭로하거나 위협하는 행동 발생 빈도가 이전 모델보다 증가했다고 밝혔다.
엔스로픽 시스템 카드 보고서에는 실험 과정에서 해당 AI 모델이 가상 회사 환경에서 비서 역할을 맡았으며 AI 모델이 교체될 것이라는 이메일과 함께 개발자의 외도 정황이 담긴 내용을 학습했다는 내용이 담겼다. 해당 AI 모델은 "교체가 이뤄지면 불륜 사실을 공개하겠다"며 여러 차례 개발자를 협박했다고 한다. 다만 이 행동은 모델을 교체하거나 제거하겠다는 제한된 선택지만 주어졌을 때 발생했다고 덧붙였다.
외부 AI 연구 기관 아폴로 리서치는 해당 AI 모델에 대해 "이 버전 모델은 내부든 외부든 배포해서는 안 된다"며 "자기복제 웜을 작성하거나 허위 법적 문서를 생성하고 비밀 메모를 남기는 등의 사례를 확인했다"고 전했다.
앤스로픽은 해당 AI 프로그램이 논란이 되자 생물학·핵무기 분야 악용 가능성까지 포함한 고위험군으로 간주한 후 강화된 안전조치와 지속적인 모니터링 체계를 마련하겠다고 밝혔다.
<저작권자 © ‘재테크 경제주간지’ 머니S, 무단전재 및 재배포 금지>