05.04. Webinar with KANG Min-gyu

카테고리 없음

05.04. Webinar with KANG Min-gyu

2wnswoo 2025. 5. 4. 20:22

💡 발표 요약 및 개념 정리: LLM과 강화학습, 진화알고리즘, 멀티태스크 학습

1. LLM과 보상학습 (Reinforcement Learning from Human Feedback, RLHF)

GPT 같은 대형 언어 모델(LLM)은 강화학습을 통해 보상 신호를 학습할 수 있다.
일반적으로 사용하는 방식은 RLHF (Reinforcement Learning from Human Feedback):
- 사람이 생성된 문장에 대해 더 좋은/나쁜 것을 평가
- 이 피드백을 바탕으로 리워드 모델을 학습
- 이후 PPO(Proximal Policy Optimization) 등의 강화학습 기법으로 파인튜닝
RLHF는 LLM이 더 사람 친화적이고 유용한 응답을 하도록 만들어 준다.

2. "보상을 받는가?"에서 "보상을 잘 받는가?"로

과거에는 LLM이 보상을 이해하고 반응하는지를 중점으로 했다.
최근에는 LLM이 보상을 얼마나 잘 일반화(generalize) 할 수 있는지에 주목하고 있음:
- 예: 특정 태스크에서만 잘 작동하는 게 아니라 다양한 상황에서도 보상을 잘 반영하는지
이는 LLM의 범용성과 직접 연결된다.

3. 진화 알고리즘과 LLM 연결

진화 알고리즘에서는 성능이 좋은 개체가 자식을 남기는 방식으로 탐색을 한다.
이를 LLM에 적용할 수 있음:
- 예: 여러 개의 LLM 후보군(k개의 후보) 중 리워드가 높은 모델/행동을 선택 (argmax)
- 괜찮다고 판단되면 그 결과를 다음 세대의 LLM에 반영하는 구조
이런 구조는 유레카(Eureka) 방식과도 연결됨.

4. Eureka: 보상 모델링 없이 강화학습

전통적인 강화학습에서는 각 태스크마다 리워드 설계가 필요하고 이는 비용이 큼.
Eureka는 이를 LLM의 능력을 이용해서 보상 피드백을 생성하는 프레임워크:
- 예: 로봇팔이 동작하는 영상에 대해 “잘했다”, “못했다”를 사람이 일일이 주지 않아도,
- LLM이 태스크 지식을 바탕으로 자동 평가 (self-feedback) 가능
이를 통해 멀티태스크 학습도 더 효율적으로 가능

5. 멀티태스크 학습과 LLM의 일반화 능력

인간처럼 다양한 작업을 하나의 모델이 처리하는 것이 목표 (멀티태스크 학습)
LLM은 여러 작업에 대해 지식 전이(transfer learning) 및 일반화(generalization) 능력이 강함
따라서 잘 설계된 보상 구조와 결합하면, 여러 작업에서 높은 성능을 기대할 수 있음

6. 정리

개념설명

RLHF	인간 피드백으로부터 리워드 모델을 학습하고, 이를 통해 LLM을 강화학습으로 튜닝
진화알고리즘	좋은 개체가 다음 세대로 유전되는 구조 → LLM 후보 중 리워드 기반 선택과 유사
Eureka	직접 리워드 모델링 없이 LLM 자체가 피드백 생성에 참여
Generalization	특정 태스크가 아니라 다양한 태스크에서도 높은 성능 유지
Multi-task Learning	하나의 모델이 다양한 태스크를 동시에 학습/수행하는 능력

🔍 보완하거나 공부해볼 개념 제안

Proximal Policy Optimization (PPO)
리워드 모델(RM)의 훈련 방식
LLM의 internal alignment (내부 정렬)
Curriculum learning vs. multi-task learning
OpenAI의 InstructGPT 및 ChatGPT 훈련 방식
Eureka 논문: "Eureka: Human-Level Reward Design via LLMs"

저작자표시 비영리 변경금지 (새창열림)

현재글05.04. Webinar with KANG Min-gyu

2wnswoo 님의 블로그

Be a first mover, not a fast follower

티스토리챌린지, 오블완, 우,

Today :
Yesterday :

티스토리툴바