LLM 評価レポート

モデル日付総応答時間 (s)合格したテスト平均 CodeBLEU (0-1)平均 有用性スコア (0-4)平均 機能的正確性スコア (0-4)

o1-preview

2024-11-20

2006

131

0.316933

3.60366

3.64024

o1-mini

2024-11-20

680.368

133

0.342896

3.68293

3.7561

gpt-4o

2024-11-20

354.689

126

0.322102

3.7378

3.75

gpt-4o-mini

2024-11-20

201.423

112

0.33042

3.67073

3.72561

claude-3-5-sonnet-20240620

2024-11-20

318.568

111

0.306173

3.66463

3.64024

claude-3-5-sonnet-20241022

2024-11-20

327.833

109

0.327235

3.65854

3.64634

gemini-1.5-pro

2024-11-20

516.921

92

0.333394

3.5061

3.5122

gemini-1.5-flash

2024-11-20

759.693

2

0.270065

0.670732

0.829268

総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。

合格したテスト: 評価中にモデルが合格したユニットテストの数、合計164テスト中。

平均 CodeBLEU: コード生成の品質を評価するための指標で、構文的および意味的正確性に基づいた平均 CodeBLEU スコア。

平均 有用性スコア: LLM モデルによって評価されたモデルの出力の有用性の平均評価。

  • 0: スニペットは全く役に立たず、問題に関連性がない。

  • 1: スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単。

  • 2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、それでも有用。

  • 3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要。

  • 4: スニペットは非常に役に立ち、問題を解決する。

平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLM モデルによって評価される。

  • 0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味。

  • 4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。

最終更新