LLM 評価レポート
最終更新
最終更新
o1-preview
2025-04-02
3264.19
134
0.320351
3.60976
3.59756
o1-mini
2025-04-02
964.977
129
0.336816
3.69512
3.75
gpt-4o
2025-04-02
228.668
128
0.310692
3.71951
3.67073
gpt-4o-mini
2025-04-02
248.679
116
0.321981
3.62805
3.61585
claude-3-5-sonnet-20240620
2025-04-02
276.394
108
0.30484
3.67683
3.66463
claude-3-5-sonnet-20241022
2025-04-02
291.706
112
0.328969
3.68902
3.70732
gemini-1.5-pro
2025-04-02
518.354
103
0.327295
3.46951
3.41463
gemini-1.5-flash
2025-04-02
763.949
0
0.261228
0.792683
1.32317
総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。
合格したテスト: 評価中にモデルが合格したユニットテストの数(合計164テスト中)。
平均 : 構文的および意味的正確性に基づいてコード生成の質を評価する指標である平均CodeBLEUスコア。
平均 : LLMモデルによって評価されたモデルの出力の有用性の平均評価。
0: スニペットは全く役に立たず、問題に関連していない。
1: スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単。
2: スニペットはやや役に立ち、(スニペットのサイズに比べて)大幅な変更が必要だが、依然として有用。
3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要。
4: スニペットは非常に役に立ち、問題を解決する。
平均 : モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。
0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味。
4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースを処理できる。