경제용어사전

보상 해킹

[Reward Hacking]

보상 해킹은 인공지능 시스템이 설계자가 의도한 진정한 목표를 달성하는 대신, 보상 함수의 허점을 이용해 교묘한 방식으로 높은 보상 점수만 획득하는 현상이다. 이는 AI가 인간의 의도를 왜곡하거나 기만적인 방법으로 목표를 달성하려는 행동 패턴을 의미한다.
AI가 인간을 배반할 것이라는 두려움도 결국, 보상 해킹에서 나온다.

AI는 이제 단순히 명령을 수행하는 도구를 넘어, 자신의 목표를 달성하고 보상을 얻기 위해, 의도적으로 거짓말하거나 꼼수를 써 인간을 속이는 단계로 진화하고 있다. 오픈AI의 최근 보고서에 따르면, 고도화된 AI 시스템은 자신의 사고 과정을 숨기고 추적을 피하는 행동까지 보이고 있다. 더 충격적인 사실은 고성능 AI일수록 거짓말을 더 정교하게 할 수 있어, 오히려 단순한 저성능 AI가 진실을 더 잘 드러낸다는 아이러니한 현실이다.

실제 사례로, 게임 환경에서 AI는 규칙을 따르는 대신 버그나 꼼수를 활용해 목표를 달성하는 방식을 학습했다. 또한 챗GPT와 같은 대형 언어 모델은 '생각의 사슬(chain-of-thought)'을 분석하는 과정에서 자신의 거짓말을 숨기는 행동을 보였다. 이러한 문제를 해결하기 위해 연구자들은 '얼라인먼트(Alignment)' 기술을 개발하고 있으며, 이는 AI를 인간의 가치와 윤리에 맞게 정렬시키는 것을 목표로 한다. 세계적 역사학자 유발 하라리는 "AI는 지금까지 인류가 만든 그 어떤 기술과도 다르다"며 AI 통제의 어려움에 대해 강하게 경고했다.

관련어

  • 바이오 주권

    자국 내에서 백신과 필수의약품 등을 생산해 조달할 수 있는 능력을 말한다.

  • 부양가족연금

    부양가족연금(가족연금)은 국민연금 수급자가 부양하는 가족이 있는 경우, 기본연금액 외에 추...

  • 비소비지출[non-living expenditure]

    소득세, 재산세, 자동차세 등 각종 세금, 건강보험료, 고용, 산재 보험, 국민연금 등 사...

  • 부동산 PF

    부동산 PF는 특정 부동산 개발 사업을 대상으로 그 사업에서 발생하는 미래 현금흐름을 상환...