Google の Project Zero アナリストは、大規模な言語モデルで自動化された脆弱性調査を実行できるフレームワークを開発しました。
この枠組みにより、AIエージェントは人間の安全保障専門家の「反復的で仮説に基づくアプローチ」で研究を実施できるようになる、とアナリストらは書いている。
特に、CyberSecEval 2 ベンチマークで示された課題に対して良好なパフォーマンスを発揮した LLM はありませんでした。
しかし、Googleのアナリストらは、このツールには結果の正確さと再現性を確保するための「研究者専用ツール」が含まれていると指摘した。


コメント