Jailbreak Anthropic の新しい AI 安全システムで 15,000 ドルの報酬を獲得 from zdnet.com

Jailbreak Anthropic の新しい AI 安全システムで 15,000 ドルの報酬を獲得 from zdnet.com security summary

Jailbreak Anthropic の新しい AI 安全システムで 15,000 ドルの報酬を獲得 from zdnet.com


「無害な」ジェイルブレイクを回避するようにモデルをトレーニングする AI 安全システム「Constitutional Classifiers」がリリースされました。
脱獄レッドチームがプロトタイプでシステムをテストしたところ、95% 以上の試行がブロックされ、成功しないことがわかりました。
研究者らは、各技術は原則のリストに基づいて導かれており、分類子もそれに従う必要があると付け加えました。
注目すべき点は、Constitutionally Classifier は有害なコンテンツを検出するために使用できますが、必ずしも無害であるとは限りません。

コメント

タイトルとURLをコピーしました