
研究者らは、性差別、暴力、ヘイトスピーチなどのコンテンツカテゴリにおいて、90%の確率でセーフティフィルターを回避できることを発見しました。
この攻撃は、冒涜的な表現や違法行為といった非犯罪行為に対しても有効でした。
「エコーチェンバー攻撃は、セーフティフィルターを回避するための成功した試みだった」と研究者らは記しています。
また、成功した攻撃のほとんどは、1~3ターンの操作で発生したと付け加えています。
さらに研究者らは、LLMベンダーに対し、動的なコンテキストアウェアなセーフティチェックの導入を推奨しています。



コメント