# LLM 評価レポート

| モデル                           | 日付         | 総応答時間 (s) | 合格したテスト数 | 平均CodeBLEU (0-1) | 平均有用性スコア (0-4) | 平均機能的正確性スコア (0-4) |
| ----------------------------- | ---------- | --------: | -------: | ---------------: | -------------: | ----------------: |
| gpt-5.4                       | 2026-03-18 |   371.302 |      151 |          0.30016 |        3.85976 |           3.88415 |
| gpt-5                         | 2026-03-18 |   3307.15 |      160 |         0.312013 |        3.71951 |           3.82927 |
| gpt-5-mini                    | 2026-03-18 |   2223.12 |      161 |         0.305418 |        3.79268 |           3.93293 |
| claude-opus-4-6               | 2026-03-18 |   630.643 |      164 |          0.38829 |        3.87195 |           3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |    604.89 |      161 |         0.379059 |        3.85366 |           3.90854 |
| claude-opus-4-1               | 2026-03-18 |   635.166 |      157 |         0.349491 |        3.85366 |           3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |    546.74 |      162 |         0.331766 |        3.89024 |           3.95732 |
| claude-haiku-4-5              | 2026-03-18 |   280.497 |      154 |         0.317284 |        3.84756 |           3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |   3339.78 |      162 |         0.395161 |        3.73171 |           3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |   176.493 |      148 |         0.370935 |        3.77439 |           3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |   2146.97 |      142 |         0.395257 |        3.59146 |           3.60366 |
| gemini-2.5-pro                | 2026-03-18 |   2788.94 |      118 |         0.373488 |         3.2561 |           3.38415 |
| gemini-2.5-flash              | 2026-03-18 |   952.543 |      148 |         0.338621 |         3.7439 |           3.83537 |

**総応答時間 (s):** モデルがすべての出力を生成するのにかかった総時間。

**合格したテスト数:** 評価中にモデルが合格した単体テストの数、合計164テスト中。

**平均** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** コード生成の品質を評価するための指標で、構文的および意味的正確性に基づく平均CodeBLEUスコア。

**平均** [**有用性スコア**](https://arxiv.org/abs/2304.14317)**:** LLMモデルによって評価されたモデルの出力の有用性の平均評価。

* **0:** スニペットは全く役に立たず、問題に無関係である。
* **1:** スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単である。
* **2:** スニペットはやや役に立ち、（スニペットのサイズに比べて）大幅な変更が必要だが、依然として有用である。
* **3:** スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。
* **4:** スニペットは非常に役に立ち、問題を解決する。

**平均** [**機能的正確性スコア**](https://arxiv.org/abs/2304.14317)**:** モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。

* **0 (すべての可能なテストに失敗):** コードスニペットは完全に不正確で無意味である。
* **4 (すべての可能なテストに合格):** コードスニペットは完全に正確で、すべてのケースに対応できる。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.skydeck.ai/ja/ai-documentations/llm-evaluation-report.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
