RLHF

テイラー百科事典

RLHF

RLHF(Reinforcement Learning from Human Feedback)は、人間の選好データを使って報酬モデルを学習し、その報酬モデルを使ってLLMを強化学習でチューニングする手法です。

RLHF(Reinforcement Learning from Human Feedback)は、人間の選好データを使って報酬モデルを学習し、その報酬モデルを使ってLLMを強化学習でチューニングする手法です。ChatGPTが「丁寧な応答」を返すようになった中核技術です。

流れは3段階。①事前学習モデルの準備、②人間に2つの回答のどちらが良いかを選ばせて選好データを集める、③PPOなどのアルゴリズムで報酬モデルスコアを最大化するようLLMを更新。コストが大きいため、近年はRLAIF(AIフィードバック版)に一部置き換わる流れです。

→ 原典: InstructGPT 論文 (OpenAI)

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典
JAKO