テイラー百科事典
Constitutional AI
Constitutional AI(CAI)는 Anthropic이 제안한 안전성 학습 방법입니다. "헌법"이라 부르는 일련의 원칙(예: 해로운 답변을 하지 말라, 존중하는 태도를 유지하라)을 AI에게 주고, 그 원칙에 따라 스스로 답변을 비판·수정하게 만듭니다.
Constitutional AI(CAI)는 Anthropic이 제안한 안전성 학습 방법입니다. “헌법”이라 부르는 일련의 원칙(예: 해로운 답변을 하지 말라, 존중하는 태도를 유지하라)을 AI에게 주고, 그 원칙에 따라 스스로 답변을 비판·수정하게 만듭니다.
이렇게 생성된 자기비판 데이터가 지도학습·RLAIF의 재료가 됩니다. Claude가 민감한 질문에 선을 긋는 방식, 거절할 때 이유를 설명하는 방식은 이 훈련에서 형성된 것입니다.
→ 원본 소스: Anthropic · Claude’s Constitution