LLM 評価レポート
最終更新
最終更新
o1-preview
2025-04-01
2681.95
134
0.314319
3.64634
3.7378
o1-mini
2025-04-01
959.029
128
0.33127
3.7378
3.79268
gpt-4o
2025-04-01
186.904
120
0.309362
3.73171
3.77439
gpt-4o-mini
2025-04-01
232.511
117
0.328017
3.65854
3.66463
claude-3-5-sonnet-20240620
2025-04-01
512.452
107
0.300656
3.64024
3.56098
claude-3-5-sonnet-20241022
2025-04-01
311.039
112
0.32159
3.68902
3.69512
gemini-1.5-pro
2025-04-01
518.565
99
0.33285
3.48171
3.4939
gemini-1.5-flash
2025-04-01
758.837
0
0.266851
0.829268
1.26829
総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。
合格したテスト数: 評価中にモデルが合格したユニットテストの数、合計164テスト中。
平均 : コード生成の品質を評価するための指標で、文法的および意味的正確性に基づいた平均CodeBLEUスコア。
平均 : LLMモデルによって評価されたモデルの出力の有用性の平均評価。
0: スニペットは全く役に立たず、問題に無関係である。
1: スニペットはわずかに役に立ち、問題に関連する情報を含むが、ゼロから解決策を書く方が簡単である。
2: スニペットはやや役に立ち、(スニペットのサイズに比べて)大幅な変更が必要だが、依然として有用である。
3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。
4: スニペットは非常に役に立ち、問題を解決する。
平均 : モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。
0 (すべての可能なテストに失敗): コードスニペットは完全に間違っており、意味がない。
4 (すべての可能なテストに合格): コードスニペットは完全に正しく、すべてのケースに対応できる。