
Anthropic は、AI を「無害」にすることに成功した場合、最大 20,000 ドル (?350,000) の賞金を提供します。
このシステムは、「化学的、生物学的、放射線学的危害」に関する情報を共有するだけでなく、他の情報を監視し改善するためにモデルをトレーニングします。
テスト用に 10 個の制限されたクエリを含むプロトタイプでテストされました。
脱獄されたモデルは、1 回の脱獄で攻撃の 14% しか応答できませんでした。
普遍的な侵害は発見されなかった、と同社は付け加えた。
security summary
コメント