テイラー百科事典
Constitutional AI
Constitutional AI(CAI)はAnthropicが提案した安全性学習手法です。「憲法」と呼ばれる一連の原則(例:有害な応答を避ける、敬意ある態度を保つ)をAIに与え、その原則に従って自分の応答を批判・修正させます。
Constitutional AI(CAI)はAnthropicが提案した安全性学習手法です。「憲法」と呼ばれる一連の原則(例:有害な応答を避ける、敬意ある態度を保つ)をAIに与え、その原則に従って自分の応答を批判・修正させます。
この自己批判データが教師あり学習・RLAIFの材料になります。Claudeがセンシティブな質問に線を引く挙動や、拒否時に理由を添える応答スタイルは、この訓練で形成されたものです。
→ 原典: Anthropic · Claude’s Constitution