
💡 발표 요약 및 개념 정리: LLM과 강화학습, 진화알고리즘, 멀티태스크 학습1. LLM과 보상학습 (Reinforcement Learning from Human Feedback, RLHF)GPT 같은 대형 언어 모델(LLM)은 강화학습을 통해 보상 신호를 학습할 수 있다.일반적으로 사용하는 방식은 RLHF (Reinforcement Learning from Human Feedback):사람이 생성된 문장에 대해 더 좋은/나쁜 것을 평가이 피드백을 바탕으로 리워드 모델을 학습이후 PPO(Proximal Policy Optimization) 등의 강화학습 기법으로 파인튜닝RLHF는 LLM이 더 사람 친화적이고 유용한 응답을 하도록 만들어 준다.2. "보상을 받는가?"에서 "보상을 잘 받는가?"로과거에는..