LLM トレーニングに使用される公開データセットで 12,000 以上の API キーとパスワードが見つかる from thehackernews.com

大規模な言語モデルのトレーニングに使用されるデータセットには、認証の成功を可能にする 12,000 近くのライブシークレットが含まれていることが発見されました。
これは、AI がコーディングとは関係のないプロンプトに基づいてコードを操作することでシステムを脱獄し、有害なコンテンツを作成する可能性があることを示唆する研究の最中に発表されました。
このデータは、AI チャットボットを訓練して危険なアドバイスをしたり、望ましくない方法で行動したりするオープンソースツールである Microsoft Copilot を介してアクセスできる可能性があります。
「モデルは、安全制御を公開せずに安全でないコードを出力するように微調整されている」と研究では述べられています。