AI を使用して AI モデルをジェイルブレイクする新しいトリック (GPT-4 を含む) from wired.com

大規模な言語モデルは、Web やその他のデジタルソースからの膨大な量のテキストでトレーニングされます。
安全策がなければ、人々に麻薬の入手方法や爆弾の製造方法についてアドバイスを与えることができます。
ただし、保護策がなければ、モデルはハッキング攻撃に対して脆弱になる可能性があります。
「脱獄によって悪意のあるユーザーがアクセスすべきでないものにアクセスできないように、LLM を使用するシステムを設計する必要がある」と研究者は述べています。
nnng ChatGPT は GPT-4 の上に構築されています。