
OpenAI 研究者は、「出力の品質」と「信頼性」に関してオープン AI モデルを評価しました。
ボットにはサンプル クエリが与えられ、人間の医師が設定した基準に一致する応答が生成されました。
研究現場からの補助報告書によると、彼らのスコアは人間のスコアと比較して採点され、これらの基準を正しく満たしているかどうかが判定された。
ただし、注目すべきことに、ボットの健康関連の精度は HealthBench よりも劣っています。
iniuel の結果は、最近のバージョンのベンチマーク テストよりも改善が見られました。
品質応答に使用されるすべてのバージョンでテストされた開発バージョンの入力パラメーターは、国家精度 (1 ドルあたりのコスト) を発見しました。
wrnbotthomingintelligenceinteducenrently – おそらく、両方の医師の研究室の科学者が報告した、いくつかの研究の間に改善が観察されたと報告されており、現在オンラインで入手できます。
また、現在の標準に合わせて改善されたことも示しています。
ただし、それらは将来発表される研究結果である可能性があります。


コメント