LLM 評価レポート

モデル
日付
総応答時間 (s)
合格したテスト数
平均 CodeBLEU (0-1)
平均 有用性スコア (0-4)
平均 機能的正確性スコア (0-4)

o1-preview

2025-02-21

2688.52

126

0.312426

3.57317

3.60976

o1-mini

2025-02-21

999.934

128

0.353161

3.68293

3.7439

gpt-4o

2025-02-21

211.039

124

0.315859

3.67073

3.75

gpt-4o-mini

2025-02-21

228.654

118

0.33717

3.63415

3.68293

claude-3-5-sonnet-20240620

2025-02-21

279.791

110

0.302947

3.68902

3.70732

claude-3-5-sonnet-20241022

2025-02-21

578.256

111

0.325341

3.64634

3.63415

gemini-1.5-pro

2025-02-21

563.298

100

0.329829

3.48171

4.07317

gemini-1.5-flash

2025-02-21

772.702

0

0.264112

0.780488

1.2561

総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。

合格したテスト数: 評価中にモデルが合格したユニットテストの数、合計164テスト中。

平均 CodeBLEU: コード生成の品質を評価するための指標で、構文的および意味的正確性に基づく平均 CodeBLEU スコア。

平均 有用性スコア: LLM モデルによって評価されたモデルの出力の有用性の平均評価。

  • 0: スニペットは全く役に立たず、問題に関連性がない。

  • 1: スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単である。

  • 2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、それでも有用である。

  • 3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。

  • 4: スニペットは非常に役に立ち、問題を解決する。

平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLM モデルによって評価される。

  • 0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。

  • 4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。

最終更新