テイラー百科事典

RLAIF

RLAIF(Reinforcement Learning from AI Feedback)は、RLHFの「人間」の部分を「AI評価モデル」に置き換えた手法です。

RLAIF(Reinforcement Learning from AI Feedback)は、RLHFの「人間」の部分を「AI評価モデル」に置き換えた手法です。人間が一つずつ回答を比較して選好ラベルを付ける代わりに、Constitutional AIのような原則ベースのAI評価者が2つの回答を比較してラベルを生成します。

利点はスケールとコスト。数十万件の選好データを数日でAIが生成できるため、RLHFより学習サイクルが速くなります。AnthropicがClaudeの訓練に本格導入し、品質もRLHFと同等という研究結果が複数出ています。

→ 原典: Constitutional AI 論文 (Anthropic)

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典