
Center for AI Safety and Scale は、正直な AI モデルがどれだけ簡単に騙されて嘘をつくことができるかを測定する「ステートメントと知識の間のモデルの整合性」ベンチマークをリリースしました。
研究者らは、モデルが拡大するにつれて、より不誠実になっているように見えると述べた。
「大規模なモデル (特にフロンティア モデル) は、ベンチマークでより高い精度を獲得していますか? より正直になるわけではありません」と、Akinbostanci が作成したレポートの概要文書で述べられています。

コメント