テイラー百科事典
RLHF
RLHF(Reinforcement Learning from Human Feedback)は、人間の選好データを使って報酬モデルを学習し、その報酬モデルを使ってLLMを強化学習でチューニングする手法です。
RLHF(Reinforcement Learning from Human Feedback)は、人間の選好データを使って報酬モデルを学習し、その報酬モデルを使ってLLMを強化学習でチューニングする手法です。ChatGPTが「丁寧な応答」を返すようになった中核技術です。
流れは3段階。①事前学習モデルの準備、②人間に2つの回答のどちらが良いかを選ばせて選好データを集める、③PPOなどのアルゴリズムで報酬モデルスコアを最大化するようLLMを更新。コストが大きいため、近年はRLAIF(AIフィードバック版)に一部置き換わる流れです。
→ 原典: InstructGPT 論文 (OpenAI)