Anthropic は、新しい AI 安全システムをジェイルブレイクできる人に 20,000 ドルを提供します from zdnet.com

Anthropic は、新しい AI 安全システムをジェイルブレイクできる人に 20,000 ドルを提供します from zdnet.com security summary

Anthropic は、新しい AI 安全システムをジェイルブレイクできる人に 20,000 ドルを提供します from zdnet.com


Anthropic は、AI を「無害」にすることに成功した場合、最大 20,000 ドル (?350,000) の賞金を提供します。
このシステムは、「化学的、生物学的、放射線学的危害」に関する情報を共有するだけでなく、他の情報を監視し改善するためにモデルをトレーニングします。
テスト用に 10 個の制限されたクエリを含むプロトタイプでテストされました。
脱獄されたモデルは、1 回の脱獄で攻撃の 14% しか応答できませんでした。
普遍的な侵害は発見されなかった、と同社は付け加えた。

コメント

タイトルとURLをコピーしました