LLM 評価レポート
モデル | 日付 | 総応答時間 (s) | 合格したテスト数 | 平均 CodeBLEU (0-1) | 平均 有用性スコア (0-4) | 平均 機能的正確性スコア (0-4) |
---|---|---|---|---|---|---|
o1-preview | 2024-11-21 | 2208.03 | 132 | 0.321908 | 3.60976 | 3.64024 |
o1-mini | 2024-11-21 | 718.012 | 134 | 0.322883 | 3.65244 | 3.7561 |
gpt-4o | 2024-11-21 | 321.525 | 125 | 0.316051 | 3.70732 | 3.7439 |
gpt-4o-mini | 2024-11-21 | 191.192 | 114 | 0.339313 | 3.62805 | 3.69512 |
claude-3-5-sonnet-20240620 | 2024-11-21 | 335.662 | 113 | 0.303122 | 3.60366 | 3.62195 |
claude-3-5-sonnet-20241022 | 2024-11-21 | 351.938 | 110 | 0.321726 | 3.67073 | 3.67683 |
gemini-1.5-pro | 2024-11-21 | 528.459 | 106 | 0.340196 | 3.43293 | 3.5061 |
gemini-1.5-flash | 2024-11-21 | 759.693 | 2 | 0.270065 | 0.670732 | 0.829268 |
総応答時間 (s): モデルがすべての出力を生成するのにかかった総時間。
合格したテスト数: 評価中にモデルが合格した単体テストの数、合計164テスト中。
平均 CodeBLEU: コード生成の品質を評価するための指標で、構文的および意味的正確性に基づいた平均 CodeBLEU スコア。
平均 有用性スコア: LLM モデルによって評価されたモデルの出力の有用性の平均評価。
0: スニペットは全く役に立たず、問題に関連していない。
1: スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単。
2: スニペットはやや役に立ち、かなりの変更が必要だが(スニペットのサイズに比べて)、まだ有用である。
3: スニペットは役に立つが、問題を解決するためにわずかに変更が必要。
4: スニペットは非常に役に立ち、問題を解決する。
平均 機能的正確性スコア: モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLM モデルによって評価される。
0 (すべての可能なテストに失敗): コードスニペットは完全に不正確で無意味である。
4 (すべての可能なテストに合格): コードスニペットは完全に正確で、すべてのケースに対応できる。
最終更新