倫理・安全

ガードレール

AI に有害・違反コンテンツを出させないための制御層。

詳しい解説

出力フィルタ、入力検査、システムプロンプト制約、別モデルによる二次審査などで、機密漏洩や暴力・差別・違法行為への助言などを抑止する仕組みの総称。SaaS で AI を本番運用する際の必須レイヤ。NeMo Guardrails、Llama Guard、Constitutional AI 等が代表例。

ガードレールguardrails