리워드 디자인 문제 (Reward Design Problem)정의: 에이전트에게 어떤 보상을 줄지 설계하는 일은 어렵고, 잘못 설계되면 위험한 행동을 유도할 수 있다.해결 방향: 리워드를 자동으로 설계하거나 인간의 선호도를 반영하는 방식이 대안으로 주목받고 있다.유레카 (Eureka)정의: LLM(Large Language Model)을 활용해 자동으로 리워드를 생성하는 프레임워크.특징: 사람이 직접 보상을 설계하지 않고, LLM이 행동에 대한 보상을 추론해 학습을 가이드함.장점: 인간의 선호도를 섬세하게 반영한 정책 설계가 가능하다.진화 알고리즘 (Evolutionary Algorithm / Search)정의: 생물의 진화처럼 다양한 정책을 변형(mutation)하고 선택(selection)하며 반복적..