LLM 評価レポート
o1-preview
2025-02-21
2688.52
126
0.312426
3.57317
3.60976
o1-mini
2025-02-21
999.934
128
0.353161
3.68293
3.7439
gpt-4o
2025-02-21
211.039
124
0.315859
3.67073
3.75
gpt-4o-mini
2025-02-21
228.654
118
0.33717
3.63415
3.68293
claude-3-5-sonnet-20240620
2025-02-21
279.791
110
0.302947
3.68902
3.70732
claude-3-5-sonnet-20241022
2025-02-21
578.256
111
0.325341
3.64634
3.63415
gemini-1.5-pro
2025-02-21
563.298
100
0.329829
3.48171
4.07317
gemini-1.5-flash
2025-02-21
772.702
0
0.264112
0.780488
1.2561
総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。
合格したテスト数: 評価中にモデルが合格したユニットテストの数、合計164テスト中。
平均 CodeBLEU: コード生成の品質を評価するための指標で、構文的および意味的正確性に基づく平均 CodeBLEU スコア。
平均 有用性スコア: LLM モデルによって評価されたモデルの出力の有用性の平均評価。
0: スニペットは全く役に立たず、問題に関連性がない。
1: スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単である。
2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、それでも有用である。
3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。
4: スニペットは非常に役に立ち、問題を解決する。
平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLM モデルによって評価される。
0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。
4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。
最終更新