テイラー百科事典
RLHF
RLHF(Reinforcement Learning from Human Feedback)는 인간이 매긴 선호도 데이터로 보상 모델을 학습시키고, 그 보상 모델로 LLM을 강화학습 튜닝하는 기법입니다.
RLHF(Reinforcement Learning from Human Feedback)는 인간이 매긴 선호도 데이터로 보상 모델을 학습시키고, 그 보상 모델로 LLM을 강화학습 튜닝하는 기법입니다. ChatGPT가 “착한 대답”을 하게 된 핵심 기술이죠.
흐름은 3단계. ①사전학습 모델 준비, ②인간이 두 답변 중 더 나은 걸 고르게 해 선호 데이터 수집, ③PPO 같은 알고리즘으로 보상 모델 점수를 최대화하도록 LLM 업데이트. 비용이 크기 때문에 최근에는 RLAIF(AI 피드백 기반)로 일부 대체되는 추세입니다.
→ 원본 소스: InstructGPT 논문 (OpenAI)