倫理・安全

アライメント

AI の挙動を人間の意図・価値観に沿わせる研究分野。Anthropic の中心テーマ。

詳しい解説

Alignment。「人間が本当に望むこと」と「AI が最適化する目的」のズレを最小化する技術領域。Anthropic、OpenAI、DeepMind 等が研究中で、RLHF、Constitutional AI、Interpretability などのアプローチがある。AI が高性能化するほど重要性が増すとされる。

別表記

アライメントalignmentAIアライメント

詳しい解説

別表記

関連用語