LLM 評価レポート
o1-preview
2025-03-31
3046.11
126
0.318544
3.56707
3.64024
o1-mini
2025-03-31
882.601
131
0.329601
3.72561
3.79878
gpt-4o
2025-03-31
184.54
128
0.306611
3.75
3.76829
gpt-4o-mini
2025-03-31
226.728
118
0.342398
3.64634
3.73171
claude-3-5-sonnet-20240620
2025-03-31
284.186
108
0.301769
3.64634
3.63415
claude-3-5-sonnet-20241022
2025-03-31
309.034
117
0.325797
3.73171
3.71951
gemini-1.5-pro
2025-03-31
516.334
100
0.339682
3.55488
3.48171
gemini-1.5-flash
2025-03-31
758.837
0
0.266851
0.829268
1.26829
合計応答時間 (s): モデルがすべての出力を生成するのにかかった合計時間。
合格したテスト数: 評価中にモデルが合格したユニットテストの数(合計164テスト中)。
平均 CodeBLEU: 構文的および意味的正確性に基づいてコード生成の質を評価する指標である平均CodeBLEUスコア。
平均 有用性スコア: LLMモデルによって評価されたモデルの出力の有用性の平均評価。
0: スニペットは全く役に立たず、問題に無関係である。
1: スニペットはわずかに役に立ち、問題に関連する情報を含むが、最初から解決策を書く方が簡単である。
2: スニペットはやや役に立ち、(スニペットのサイズに比べて)かなりの変更が必要だが、依然として有用である。
3: スニペットは役に立つが、問題を解決するためにわずかに変更する必要がある。
4: スニペットは非常に役に立ち、問題を解決する。
平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。
0 (すべての可能なテストに失敗): コードスニペットは完全に間違っており、意味がない。
4 (すべての可能なテストに合格): コードスニペットは完全に正しく、すべてのケースに対応できる。
最終更新