
Google の Gemini 3.1 Pro モデルは、Humanity Last Exam のスコアで、推論性能が Gemini 3 のほぼ 2 倍に向上しました。
Microsoft の以前のバージョン用に確立された基盤の上に構築された新しいモデルは、数学とプログラミングの新しい成果に加えて、化学と物理学の新しい機能を誇っていました。
Copilot よりも明らかに優れた AI で、Humanities Least Experiment (HLE) ベンチマーク テストで 44.4% のスコアを獲得しました。
ただし、他のモデルも同様にパフォーマンスを発揮するのに苦労しています。
試用期間中のテストで研究者を悩ませたところ、Deep Think などの優れたライバルが、Claude Opus 4.6、48.4% などのスコアで競合他社を打ち負かしました。
より高いロジック パターンも平均最高点であり、低レベルのアルゴリズムでは Gemini 3.0 や 82% を超えるこのような改善は、Google の技術標準ではまだ公開されていません。
gemini バージョンは総合で 2 位になりましたが、このベンチマーク以外では Google のランキング システムが記録的なランキングを獲得し、大幅に高速化しました。
一方、安全性の改善が追加されたすべての AI ツール全体での Google の評価は、相対精度評価が 44.4% (48%) を記録しました。
「最も堅牢性/無効化の指標は Google の方がはるかに優れているでしょう」にもかかわらず、「最良」の分類は失敗しました。
このモデルは 3 位に終わりました。


コメント