倫理・安全
アライメント
AI の挙動を人間の意図・価値観に沿わせる研究分野。Anthropic の中心テーマ。
詳しい解説
Alignment。「人間が本当に望むこと」と「AI が最適化する目的」のズレを最小化する技術領域。Anthropic、OpenAI、DeepMind 等が研究中で、RLHF、Constitutional AI、Interpretability などのアプローチがある。AI が高性能化するほど重要性が増すとされる。
別表記
アライメントalignmentAIアライメント
AI の挙動を人間の意図・価値観に沿わせる研究分野。Anthropic の中心テーマ。
Alignment。「人間が本当に望むこと」と「AI が最適化する目的」のズレを最小化する技術領域。Anthropic、OpenAI、DeepMind 等が研究中で、RLHF、Constitutional AI、Interpretability などのアプローチがある。AI が高性能化するほど重要性が増すとされる。