OpenAIはGPT-5、クロード、ジェミニを現実世界のタスクでテストしたが、結果は驚くべきものだった。 from zdnet.com

OpenAIの新たな評価は、AIが現実世界で経済的に価値のあるタスクにおいてどの程度のパフォーマンスを発揮するかを測定するものです。
これらのタスクは、関連分野で平均14年の経験を持つ専門家によって作成され、自動化可能な法的要約、エンジニアリング設計図、顧客サポートの会話など、「実際の成果物」を反映するものでした。
また、テストされたAIモデルの中で最も効率的なのは、Google Gemini 2.5 ProとxAiDのDeep Researchであることも明らかになりました。
しかし、これらのモデルは人間の採点者によるレポートほど信頼性が高くありませんでした。
注目すべきは、OpenAIがAIツールへのアクセスを労働者に民主化することを計画していることです。