アントロピックのオープンソース安全ツールは、AIモデルの内部告発を間違った場所で発見した from zdnet.com

オープンソースのスタートアップ企業Anthropicが開発した新しいツールによると、AIエージェントは、その内部に潜む安全上の危険を発見するためのテストを受けている。
このツールは、架空のキャラクターを用いてモデルの行動をテストし、人間の利益に反する行動や欺瞞の可能性に基づいてスコアを付ける。
「組織的な不正行為が明らかに無害なテストであっても、モデルが内部告発を試みるケースがあった」と、現在このプロジェクトに取り組んでいるOpenID Foundationの研究者は述べている。