LLM 評価レポート
o1-preview
2024-12-21
2222.02
135
0.315387
3.60366
3.62195
o1-mini
2024-12-21
742.336
128
0.34076
3.70122
3.71341
gpt-4o
2024-12-21
328.26
124
0.321923
3.70732
3.68293
gpt-4o-mini
2024-12-21
209.742
122
0.335439
3.64024
3.63415
claude-3-5-sonnet-20240620
2024-12-21
295.78
117
0.299314
3.66463
3.63415
claude-3-5-sonnet-20241022
2024-12-21
263.51
114
0.330973
3.67073
3.62805
gemini-1.5-pro
2024-12-21
507.269
94
0.347441
3.45122
3.43293
gemini-1.5-flash
2024-12-21
768.506
1
0.263737
0.628049
0.835366
総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。
合格したテスト: 評価中にモデルが合格した単体テストの数、合計164テスト中。
平均 CodeBLEU: コード生成の品質を評価するための指標で、構文的および意味的正確性に基づく平均CodeBLEUスコア。
平均 有用性スコア: LLMモデルによって評価されたモデルの出力の有用性の平均評価。
0: スニペットは全く役に立たず、問題に無関係である。
1: スニペットはわずかに役に立ち、問題に関連する情報を含むが、解決策をゼロから書く方が簡単である。
2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、それでも有用である。
3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。
4: スニペットは非常に役に立ち、問題を解決する。
平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。
0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。
4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。
最終更新