テイラー百科事典
RLAIF
RLAIF(Reinforcement Learning from AI Feedback)は、RLHFの「人間」の部分を「AI評価モデル」に置き換えた手法です。
RLAIF(Reinforcement Learning from AI Feedback)は、RLHFの「人間」の部分を「AI評価モデル」に置き換えた手法です。人間が一つずつ回答を比較して選好ラベルを付ける代わりに、Constitutional AIのような原則ベースのAI評価者が2つの回答を比較してラベルを生成します。
利点はスケールとコスト。数十万件の選好データを数日でAIが生成できるため、RLHFより学習サイクルが速くなります。AnthropicがClaudeの訓練に本格導入し、品質もRLHFと同等という研究結果が複数出ています。
→ 原典: Constitutional AI 論文 (Anthropic)