> For the complete documentation index, see [llms.txt](https://docs.skydeck.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.skydeck.ai/ja/ai-documentations/llm-evaluation-report.md).

# LLM 評価レポート

| モデル                           | 日付         | 総応答時間 (s) | 合格したテスト数 | 平均CodeBLEU (0-1) | 平均有用性スコア (0-4) | 平均機能的正確性スコア (0-4) |
| ----------------------------- | ---------- | --------: | -------: | ---------------: | -------------: | ----------------: |
| gpt-5.4                       | 2026-03-18 |   371.302 |      151 |          0.30016 |        3.85976 |           3.88415 |
| gpt-5                         | 2026-03-18 |   3307.15 |      160 |         0.312013 |        3.71951 |           3.82927 |
| gpt-5-mini                    | 2026-03-18 |   2223.12 |      161 |         0.305418 |        3.79268 |           3.93293 |
| claude-opus-4-6               | 2026-03-18 |   630.643 |      164 |          0.38829 |        3.87195 |           3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |    604.89 |      161 |         0.379059 |        3.85366 |           3.90854 |
| claude-opus-4-1               | 2026-03-18 |   635.166 |      157 |         0.349491 |        3.85366 |           3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |    546.74 |      162 |         0.331766 |        3.89024 |           3.95732 |
| claude-haiku-4-5              | 2026-03-18 |   280.497 |      154 |         0.317284 |        3.84756 |           3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |   3339.78 |      162 |         0.395161 |        3.73171 |           3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |   176.493 |      148 |         0.370935 |        3.77439 |           3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |   2146.97 |      142 |         0.395257 |        3.59146 |           3.60366 |
| gemini-2.5-pro                | 2026-03-18 |   2788.94 |      118 |         0.373488 |         3.2561 |           3.38415 |
| gemini-2.5-flash              | 2026-03-18 |   952.543 |      148 |         0.338621 |         3.7439 |           3.83537 |

**総応答時間 (s):** モデルがすべての出力を生成するのにかかった総時間。

**合格したテスト数:** 評価中にモデルが合格した単体テストの数、合計164テスト中。

**平均** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** コード生成の品質を評価するための指標で、構文的および意味的正確性に基づく平均CodeBLEUスコア。

**平均** [**有用性スコア**](https://arxiv.org/abs/2304.14317)**:** LLMモデルによって評価されたモデルの出力の有用性の平均評価。

* **0:** スニペットは全く役に立たず、問題に無関係である。
* **1:** スニペットはわずかに役に立ち、問題に関連する情報を含んでいるが、ゼロから解決策を書く方が簡単である。
* **2:** スニペットはやや役に立ち、（スニペットのサイズに比べて）大幅な変更が必要だが、依然として有用である。
* **3:** スニペットは役に立つが、問題を解決するためにわずかに変更が必要である。
* **4:** スニペットは非常に役に立ち、問題を解決する。

**平均** [**機能的正確性スコア**](https://arxiv.org/abs/2304.14317)**:** モデルの出力の機能的正確性の平均スコアで、出力が機能要件をどれだけ満たしているかを評価し、LLMモデルによって評価される。

* **0 (すべての可能なテストに失敗):** コードスニペットは完全に不正確で無意味である。
* **4 (すべての可能なテストに合格):** コードスニペットは完全に正確で、すべてのケースに対応できる。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.skydeck.ai/ja/ai-documentations/llm-evaluation-report.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
