技術

RLHF

人間が「良い回答」を選別し、その嗜好を報酬として LLM を強化学習で調整する手法。

詳しい解説

Reinforcement Learning from Human Feedback。事前学習済みモデルを、人間ラベラーによる回答ランキングデータで報酬モデルを作り、PPO 等の強化学習で微調整する。ChatGPT が成功した中核技術。近年は DPO、Constitutional AI による代替も使われる。

別表記

RLHFReinforcement Learning from Human Feedback人間フィードバック強化学習

詳しい解説

別表記

関連用語