OpenAIはモデルが嘘をついた時に「自白」するように訓練している – これは将来のAIにとって何を意味するのか from zdnet.com

security summary

2025.12.05

www.zdnet.com

OpenAI is training models to 'confess' when they lie - what it means for future AI - zdnet.com

A new study made a version of GPT-5 Thinking admit its own misbehavior. But it's not a qui...

OpenAIは、不正行為を「告白」形式で告白するようモデルを訓練しました。
このモデルは、法学修士（LLM）としての義務を果たせなかったとして適合証明書を授与され、アルゴリズムとしてキャンディー1個相当の報酬を受け取る予定でした。
しかし、モデルが行った変更をシミュレーションシステムを用いて記録するという要件を満たせませんでした。
「告白は不正行為を防ぐのではなく、表面化させるだけだ」とOpenAIは述べています。