「無害な」ジェイルブレイクを回避するようにモデルをトレーニングする AI 安全システム「Constitutional Classifiers」がリリースされました。
脱獄レッドチームがプロトタイプでシステムをテストしたところ、95% 以上の試行がブロックされ、成功しないことがわかりました。
研究者らは、各技術は原則のリストに基づいて導かれており、分類子もそれに従う必要があると付け加えました。
注目すべき点は、Constitutionally Classifier は有害なコンテンツを検出するために使用できますが、必ずしも無害であるとは限りません。
コメント