LLM 評価レポート

モデル

日付

総応答時間 (s)

合格したテスト数

平均 CodeBLEU (0-1)

平均有用性スコア (0-4)

平均機能的正確性スコア (0-4)

gpt-5

2025-10-01

2864.33

161

0.307856

3.84756

gpt-5-mini

2025-10-01

2529.73

160

0.309437

3.88415

3.92073

gpt-5-nano

2025-10-01

1681.91

152

0.305554

3.82927

3.85366

gpt-4.1

2025-10-01

252.895

156

0.337819

3.89634

3.92073

claude-opus-4-1-20250805

2025-10-01

761.552

161

0.35051

3.87195

3.92683

claude-opus-4-20250514

2025-10-01

705.543

159

0.347384

3.86585

3.93293

claude-sonnet-4-5-20250929

2025-10-01

632.707

162

0.335302

3.95122

3.96341

claude-sonnet-4-20250514

2025-10-01

578.039

161

0.321841

3.90854

3.95732

gemini-2.5-pro

2025-10-01

3375.77

141

0.365963

3.82927

3.90244

gemini-2.5-flash

2025-10-01

1324.6

151

0.331303

3.84756

3.92683

総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。

合格したテスト数: 評価中にモデルが合格したユニットテストの数、合計164テスト中。

平均 CodeBLEU: コード生成の質を評価するための指標で、構文的および意味的正確性に基づく平均 CodeBLEU スコア。

平均 有用性スコア: LLM モデルによって評価されたモデルの出力の有用性の平均評価。

0: スニペットは全く役に立たず、問題に無関係である。
1: スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単である。
2: スニペットはある程度役に立ち、大幅な変更が必要だが（スニペットのサイズに比べて）、それでも有用である。
3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。
4: スニペットは非常に役に立ち、問題を解決する。

平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLM モデルによって評価される。

0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。
4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。

前へAI ドキュメント次へSkyDeck.ai LLM 対応ドキュメント

最終更新 10 日前