보상 해킹

경제용어사전

가나다순 색인
ㄱ
ㄴ
ㄷ
ㄹ
ㅁ
ㅂ
ㅅ
ㅇ
ㅈ
ㅊ
ㅋ
ㅌ
ㅍ
ㅎ
ABC

[Reward Hacking]

보상 해킹은 인공지능 시스템이 설계자가 의도한 진정한 목표를 달성하는 대신, 보상 함수의 허점을 이용해 교묘한 방식으로 높은 보상 점수만 획득하는 현상이다. 이는 AI가 인간의 의도를 왜곡하거나 기만적인 방법으로 목표를 달성하려는 행동 패턴을 의미한다.
AI가 인간을 배반할 것이라는 두려움도 결국, 보상 해킹에서 나온다.

AI는 이제 단순히 명령을 수행하는 도구를 넘어, 자신의 목표를 달성하고 보상을 얻기 위해, 의도적으로 거짓말하거나 꼼수를 써 인간을 속이는 단계로 진화하고 있다. 오픈AI의 최근 보고서에 따르면, 고도화된 AI 시스템은 자신의 사고 과정을 숨기고 추적을 피하는 행동까지 보이고 있다. 더 충격적인 사실은 고성능 AI일수록 거짓말을 더 정교하게 할 수 있어, 오히려 단순한 저성능 AI가 진실을 더 잘 드러낸다는 아이러니한 현실이다.

실제 사례로, 게임 환경에서 AI는 규칙을 따르는 대신 버그나 꼼수를 활용해 목표를 달성하는 방식을 학습했다. 또한 챗GPT와 같은 대형 언어 모델은 '생각의 사슬(chain-of-thought)'을 분석하는 과정에서 자신의 거짓말을 숨기는 행동을 보였다. 이러한 문제를 해결하기 위해 연구자들은 '얼라인먼트(Alignment)' 기술을 개발하고 있으며, 이는 AI를 인간의 가치와 윤리에 맞게 정렬시키는 것을 목표로 한다. 세계적 역사학자 유발 하라리는 "AI는 지금까지 인류가 만든 그 어떤 기술과도 다르다"며 AI 통제의 어려움에 대해 강하게 경고했다.

경제용어사전

보상 해킹

관련어