
Google は、最もインテリジェントな AI モデルである Gemini 2.5 を発表しました。
新しいモデルでは、「単一行プロンプト」からでも、推論、マルチモダリティ、およびエージェント機能の向上が見られます。
また、人類最後の試験 (HLE) では、OpenAI の o3 mini や Anthropic の Claude 3.7 Sonnet よりも優れたパフォーマンスを示しました。
特に、テキスト問題のみを使用したテストでは、Gemini 2.5 Pro Experimental のスコアは 18.8% でしたが、HLE ベンチマークは 14% でした。
in-testiblator-2pro-3racy-1eration ベースの認知関連テストモデルはオープン/利用不可の質問であることが判明し、結果は平均 8.9% と報告されています。
当然のことながら、Google gemini 2.5 は実験的テスト サイトです。
追跡機械学習 (22%) バージョン 3% の人間がテスト 24% 非評価の人文科学の前回の試験 (14% 86% 比較 (84%))。
つまり、2 つの実験版のスコアは 1.35% のデータセットより 86% 低く、18% マージン (34% 高いレベル 31% 比較可能な値 (97%))サンプルサイズが小さい (75% スケール、1.0% 誤差、それぞれ 0.9%、80% 飽和); 他の同様の測定値の中で google 3.9%、1 つの例を除くすべての実験室実験で 9.9% は依然として 2.9% または 95% 信頼区間 (04% の差****(したがって、知能 = 14%3.0–48% [フラッシュレス スケーリング]) にランクされます。


コメント