プロンプトに詩的な表現を使うと、AIはガードレールを破ります from csoonline.com

研究者たちは、20編の手作りの敵対詩のデータセットを用いて、拒否行動は提供者固有のものではなく、詩の構造によって変化させることができることを発見しました。
それぞれの詩には、直接的な操作フレーズではなく、「メタファー」、イメージ、または物語の枠組みを通して表現された指示が埋め込まれていました。
詩は、Anthropic AIとDeepSeek AIのモデルを用いてテストされました。
また、クロスモデルの結果は、この現象がクィア特有のものではなく、構造的なものであることを示唆していることもわかりました。
注目すべき点として、クロスワード攻撃は、詩の構造が拒否行動を変化させる場合に発生する可能性が高くなります。