카테고리 없음

06.30. Webinar with KANG Min-gyu

2wnswoo 2025. 6. 30. 01:59

리워드 디자인 문제 (Reward Design Problem)

  • 정의: 에이전트에게 어떤 보상을 줄지 설계하는 일은 어렵고, 잘못 설계되면 위험한 행동을 유도할 수 있다.
  • 해결 방향: 리워드를 자동으로 설계하거나 인간의 선호도를 반영하는 방식이 대안으로 주목받고 있다.

유레카 (Eureka)

  • 정의: LLM(Large Language Model)을 활용해 자동으로 리워드를 생성하는 프레임워크.
  • 특징: 사람이 직접 보상을 설계하지 않고, LLM이 행동에 대한 보상을 추론해 학습을 가이드함.
  • 장점: 인간의 선호도를 섬세하게 반영한 정책 설계가 가능하다.

진화 알고리즘 (Evolutionary Algorithm / Search)

  • 정의: 생물의 진화처럼 다양한 정책을 변형(mutation)하고 선택(selection)하며 반복적으로 더 나은 전략을 찾는 탐색 기법.
  • 피트니스 함수 (Fitness Function): 정책이나 행동의 성능을 수치화하여 비교하고, 더 나은 방향으로 선택과 개선을 수행함.

SayCan

  • 구성: LLM과 Skill 기반의 로봇 제어 시스템으로 구성된다.
  • 핵심 아이디어: 각 행동 단위를 Skill로 정의하고, LLM이 자연어 명령에 따라 어떤 Skill을 실행할지 판단함.
  • 특징: 명시적 리워드 없이도 자연어를 기반으로 실행 가능하다.

덱스터리티 (Dexterity)

  • 정의: 로봇 손 등의 시스템에서 작은 물체를 잡고, 돌리고, 섬세하게 옮기는 조작 능력을 의미한다.
  • 중요성: 고성능 로봇 제어에서는 정밀한 덱스터리티 확보가 핵심 과제다.

RLHF (Reinforcement Learning from Human Feedback)

  • 정의: 인간의 피드백을 보상으로 사용하는 강화학습 기법.
  • 방법:
    • 텍스트 응답에 대한 사람의 평가를 보상으로 사용
    • 두 개의 응답 중에서 인간이 더 나은 것을 선택해 학습에 활용