
Scale AI と人工知能安全センター (CAIS) は、最先端レベルで人工知能の知識の限界をテストする新しい学術ベンチマークである人類最後の試験をリリースしました。
このベンチマークには、特に OpenAI’d o1 や GPT-4O などのオープンソース モデルに関する質問が含まれています。
オープンソースの Google Gemini 1.5 Pro および OpenAI’n Claude 3.5 Sonnet に関する質問も含まれています。
特に注目すべき点は、AI のスケーリングだけではその機能をテストするには「十分ではない」ということです。


コメント