「人類最後の試験」のベンチマークは上位の AI モデルを苦しめています – これ以上改善できるでしょうか? from zdnet.com

Scale AI と人工知能安全センター (CAIS) は、最先端レベルで人工知能の知識の限界をテストする新しい学術ベンチマークである人類最後の試験をリリースしました。
このベンチマークには、特に OpenAI’d o1 や GPT-4O などのオープンソースモデルに関する質問が含まれています。
オープンソースの Google Gemini 1.5 Pro および OpenAI’n Claude 3.5 Sonnet に関する質問も含まれています。
特に注目すべき点は、AI のスケーリングだけではその機能をテストするには「十分ではない」ということです。