LLM 評価レポート

モデル
日付
総応答時間 (s)
合格したテスト
平均CodeBLEU (0-1)
平均有用性スコア (0-4)
平均機能的正確性スコア (0-4)

o1-preview

2024-12-21

2222.02

135

0.315387

3.60366

3.62195

o1-mini

2024-12-21

742.336

128

0.34076

3.70122

3.71341

gpt-4o

2024-12-21

328.26

124

0.321923

3.70732

3.68293

gpt-4o-mini

2024-12-21

209.742

122

0.335439

3.64024

3.63415

claude-3-5-sonnet-20240620

2024-12-21

295.78

117

0.299314

3.66463

3.63415

claude-3-5-sonnet-20241022

2024-12-21

263.51

114

0.330973

3.67073

3.62805

gemini-1.5-pro

2024-12-21

507.269

94

0.347441

3.45122

3.43293

gemini-1.5-flash

2024-12-21

768.506

1

0.263737

0.628049

0.835366

総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。

合格したテスト: 評価中にモデルが合格した単体テストの数、合計164テスト中。

平均 CodeBLEU: コード生成の品質を評価するための指標で、構文的および意味的正確性に基づく平均CodeBLEUスコア。

平均 有用性スコア: LLMモデルによって評価されたモデルの出力の有用性の平均評価。

  • 0: スニペットは全く役に立たず、問題に無関係である。

  • 1: スニペットはわずかに役に立ち、問題に関連する情報を含むが、解決策をゼロから書く方が簡単である。

  • 2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、それでも有用である。

  • 3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。

  • 4: スニペットは非常に役に立ち、問題を解決する。

平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。

  • 0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。

  • 4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。

最終更新