Anthropic は、新しい AI 安全システムをジェイルブレイクできる人に 20,000 ドルを提供します from zdnet.com

security summary

2025.02.07

www.zdnet.com

Anthropic offers $20,000 to whoever can jailbreak its new AI safety system - zdnet.com

The company has upped its reward for red-teaming Constitutional Classifiers. Here's how to...

Anthropic は、AI を「無害」にすることに成功した場合、最大 20,000 ドル (?350,000) の賞金を提供します。
このシステムは、「化学的、生物学的、放射線学的危害」に関する情報を共有するだけでなく、他の情報を監視し改善するためにモデルをトレーニングします。
テスト用に 10 個の制限されたクエリを含むプロトタイプでテストされました。
脱獄されたモデルは、1 回の脱獄で攻撃の 14% しか応答できませんでした。
普遍的な侵害は発見されなかった、と同社は付け加えた。