LLM 評価レポート

モデル日付総応答時間 (s)合格したテスト数平均CodeBLEU (0-1)平均有用性スコア (0-4)平均機能的正確性スコア (0-4)

gpt-4o-mini

2024-10-15

288.593

113

0.336386

3.65854

3.62805

gemini-1.5-pro

2024-10-15

691.622

104

0.342204

3.47561

3.40854

claude-3-5-sonnet-20240620

2024-10-15

369.063

113

0.303837

3.67683

3.59146

gpt-4o

2024-10-15

323.43

127

0.319079

3.73171

3.60976

claude-3-opus-20240229

2024-10-15

1069.89

107

0.307076

3.68902

3.60976

総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。

合格したテスト数: 評価中にモデルが合格した単体テストの数、合計164テスト中。

平均 CodeBLEU: コード生成の質を評価するための指標で、構文的および意味的正確性に基づいた平均CodeBLEUスコア。

平均 有用性スコア: LLMモデルによって評価されたモデルの出力の有用性の平均評価。

  • 0: スニペットは全く役に立たず、問題に関連性がない。

  • 1: スニペットはわずかに役に立つが、問題に関連する情報を含んでいるものの、ゼロから解決策を書く方が簡単。

  • 2: スニペットはやや役に立つが、かなりの変更が必要(スニペットのサイズに比べて)、しかし依然として有用。

  • 3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要。

  • 4: スニペットは非常に役に立ち、問題を解決する。

平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。

  • 0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味。

  • 4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。

最終更新