LLM 評価レポート

モデル日付総応答時間 (s)合格したテスト数平均 CodeBLEU (0-1)平均 有用性スコア (0-4)平均 機能的正確性スコア (0-4)

o1-preview

2024-11-21

2208.03

132

0.321908

3.60976

3.64024

o1-mini

2024-11-21

718.012

134

0.322883

3.65244

3.7561

gpt-4o

2024-11-21

321.525

125

0.316051

3.70732

3.7439

gpt-4o-mini

2024-11-21

191.192

114

0.339313

3.62805

3.69512

claude-3-5-sonnet-20240620

2024-11-21

335.662

113

0.303122

3.60366

3.62195

claude-3-5-sonnet-20241022

2024-11-21

351.938

110

0.321726

3.67073

3.67683

gemini-1.5-pro

2024-11-21

528.459

106

0.340196

3.43293

3.5061

gemini-1.5-flash

2024-11-21

759.693

2

0.270065

0.670732

0.829268

総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。

合格したテスト数: 評価中にモデルが合格した単体テストの数、合計164テスト中。

平均 CodeBLEU: コード生成の品質を評価するための指標で、構文的および意味的正確性に基づいた平均 CodeBLEU スコア。

平均 有用性スコア: LLM モデルによって評価されたモデルの出力の有用性の平均評価。

  • 0: スニペットは全く役に立たず、問題に関連していない。

  • 1: スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単。

  • 2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、まだ有用である。

  • 3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要。

  • 4: スニペットは非常に役に立ち、問題を解決する。

平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLM モデルによって評価される。

  • 0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。

  • 4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。

最終更新