技術
RLHF
人間が「良い回答」を選別し、その嗜好を報酬として LLM を強化学習で調整する手法。
詳しい解説
Reinforcement Learning from Human Feedback。事前学習済みモデルを、人間ラベラーによる回答ランキングデータで報酬モデルを作り、PPO 等の強化学習で微調整する。ChatGPT が成功した中核技術。近年は DPO、Constitutional AI による代替も使われる。
別表記
RLHFReinforcement Learning from Human Feedback人間フィードバック強化学習