非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AAI News JP / www.ai-news.jp
技術

RLHF

人間が「良い回答」を選別し、その嗜好を報酬として LLM を強化学習で調整する手法。

詳しい解説

Reinforcement Learning from Human Feedback。事前学習済みモデルを、人間ラベラーによる回答ランキングデータで報酬モデルを作り、PPO 等の強化学習で微調整する。ChatGPT が成功した中核技術。近年は DPO、Constitutional AI による代替も使われる。

別表記

RLHFReinforcement Learning from Human Feedback人間フィードバック強化学習

関連用語

← 用語集一覧へ