
シンガポール国立大学の研究チームは、モデルコンテキストプロトコル(MCP)を用いて250のAIモデルをベンチマークしました。
研究者たちは、最も優れたAIモデルでさえ、複雑なタスクの複雑さのために苦労することを発見しました。
しかし、これらのテストが進化するにつれて、パフォーマンスは概して低下すると彼らは述べています。
特に、より複雑なタスクでは、サーバーとAIエージェント間のやり取りが以前よりも多く必要になります。
他のベンチマーク手法としては、DeepSeek V3のようなオープンソースプログラムの全体的なパフォーマンス向上を図る方法があります。


コメント