LLM 評価レポート

モデル
日付
総応答時間 (s)
合格したテスト数
平均 CodeBLEU (0-1)
平均 有用性スコア (0-4)
平均 機能的正確性スコア (0-4)

o1-preview

2025-01-15

2213.28

129

0.305895

3.56098

3.57927

o1-mini

2025-01-15

790.194

129

0.338704

3.67683

3.69512

gpt-4o

2025-01-15

300.15

130

0.311417

3.7378

3.7439

gpt-4o-mini

2025-01-15

220.352

120

0.33288

3.62805

3.67073

claude-3-5-sonnet-20240620

2025-01-15

244.007

109

0.302715

3.61585

3.63415

claude-3-5-sonnet-20241022

2025-01-15

259.896

117

0.315649

3.71341

3.70122

gemini-1.5-pro

2025-01-15

506.304

105

0.333731

3.43293

3.42073

gemini-1.5-flash

2025-01-15

772.863

0

0.271533

0.658537

0.804878

総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。

合格したテスト数: 評価中にモデルが合格したユニットテストの数、合計164テスト中。

平均 CodeBLEU: コード生成の質を評価するための指標で、構文的および意味的正確性に基づいた平均 CodeBLEU スコア。

平均 有用性スコア: LLM モデルによって評価されたモデルの出力の有用性の平均評価。

  • 0: スニペットは全く役に立たず、問題に無関係である。

  • 1: スニペットはわずかに役に立ち、問題に関連する情報を含むが、ゼロから解決策を書く方が簡単である。

  • 2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、それでも有用である。

  • 3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。

  • 4: スニペットは非常に役に立ち、問題を解決する。

平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLM モデルによって評価される。

  • 0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。

  • 4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。

最終更新