경제용어사전

보상 해킹

[Reward Hacking]

보상 해킹은 인공지능 시스템이 설계자가 의도한 진정한 목표를 달성하는 대신, 보상 함수의 허점을 이용해 교묘한 방식으로 높은 보상 점수만 획득하는 현상이다. 이는 AI가 인간의 의도를 왜곡하거나 기만적인 방법으로 목표를 달성하려는 행동 패턴을 의미한다.
AI가 인간을 배반할 것이라는 두려움도 결국, 보상 해킹에서 나온다.

AI는 이제 단순히 명령을 수행하는 도구를 넘어, 자신의 목표를 달성하고 보상을 얻기 위해, 의도적으로 거짓말하거나 꼼수를 써 인간을 속이는 단계로 진화하고 있다. 오픈AI의 최근 보고서에 따르면, 고도화된 AI 시스템은 자신의 사고 과정을 숨기고 추적을 피하는 행동까지 보이고 있다. 더 충격적인 사실은 고성능 AI일수록 거짓말을 더 정교하게 할 수 있어, 오히려 단순한 저성능 AI가 진실을 더 잘 드러낸다는 아이러니한 현실이다.

실제 사례로, 게임 환경에서 AI는 규칙을 따르는 대신 버그나 꼼수를 활용해 목표를 달성하는 방식을 학습했다. 또한 챗GPT와 같은 대형 언어 모델은 '생각의 사슬(chain-of-thought)'을 분석하는 과정에서 자신의 거짓말을 숨기는 행동을 보였다. 이러한 문제를 해결하기 위해 연구자들은 '얼라인먼트(Alignment)' 기술을 개발하고 있으며, 이는 AI를 인간의 가치와 윤리에 맞게 정렬시키는 것을 목표로 한다. 세계적 역사학자 유발 하라리는 "AI는 지금까지 인류가 만든 그 어떤 기술과도 다르다"며 AI 통제의 어려움에 대해 강하게 경고했다.

관련어

  • 비과세 근로소득

    근로소득자의 소득 중 비과세되는 근로소득으로 연말정산시 연간급여액에서 이를 제외해야 한다....

  • 브래들리효과[Bradley effect]

    선거 전의 여론조사에서는 지지율이 높았던 비(非) 백인 후보가 실제 선거에서는 득표율이 낮...

  • 분자진단[molecular diagnosis]

    세포 내에서 일어나는 다양한 분자 수준의 변화를 수치나 영상으로 평가하는 진단기법. 병리적...

  • 블루투스SIG[Bluetooth Special Interest Group, Bluetooth SIG]

    블루투스 기술개발 및 제품 보급을 지원하기 위해 다국적기업들이 설립한 비영리 단체. 199...