# LLM 評估報告

| 模型                            | 日期         | 總回應時間 (秒) | 通過測試數 | 平均 CodeBLEU (0-1) | 平均有用性評分 (0-4) | 平均功能正確性評分 (0-4) |
| ----------------------------- | ---------- | --------: | ----: | ----------------: | ------------: | --------------: |
| gpt-5.4                       | 2026-03-18 |   371.302 |   151 |           0.30016 |       3.85976 |         3.88415 |
| gpt-5                         | 2026-03-18 |   3307.15 |   160 |          0.312013 |       3.71951 |         3.82927 |
| gpt-5-mini                    | 2026-03-18 |   2223.12 |   161 |          0.305418 |       3.79268 |         3.93293 |
| claude-opus-4-6               | 2026-03-18 |   630.643 |   164 |           0.38829 |       3.87195 |         3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |    604.89 |   161 |          0.379059 |       3.85366 |         3.90854 |
| claude-opus-4-1               | 2026-03-18 |   635.166 |   157 |          0.349491 |       3.85366 |         3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |    546.74 |   162 |          0.331766 |       3.89024 |         3.95732 |
| claude-haiku-4-5              | 2026-03-18 |   280.497 |   154 |          0.317284 |       3.84756 |         3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |   3339.78 |   162 |          0.395161 |       3.73171 |         3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |   176.493 |   148 |          0.370935 |       3.77439 |         3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |   2146.97 |   142 |          0.395257 |       3.59146 |         3.60366 |
| gemini-2.5-pro                | 2026-03-18 |   2788.94 |   118 |          0.373488 |        3.2561 |         3.38415 |
| gemini-2.5-flash              | 2026-03-18 |   952.543 |   148 |          0.338621 |        3.7439 |         3.83537 |

**總回應時間 (秒)：** 模型生成所有輸出的總時間。

**通過測試數：** 模型在評估期間通過的單元測試數量，總共 164 個測試。

**平均** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**：** 平均 CodeBLEU 分數，評估基於語法和語義正確性的代碼生成質量的指標。

**平均** [**有用性評分**](https://arxiv.org/abs/2304.14317)**：** 模型輸出有用性的平均評分，由 LLM 模型評定。

* **0：** 片段完全無幫助，與問題無關。
* **1：** 片段稍微有幫助，包含與問題相關的信息，但從頭開始編寫解決方案更容易。
* **2：** 片段有些有幫助，需要進行重大更改（與片段的大小相比），但仍然有用。
* **3：** 片段有幫助，但需要稍微改變以解決問題。
* **4：** 片段非常有幫助，解決了問題。

**平均** [**功能正確性評分**](https://arxiv.org/abs/2304.14317)**：** 模型輸出功能正確性的平均分數，評估輸出滿足功能要求的程度，由 LLM 模型評定。

* **0（未通過所有可能的測試）：** 代碼片段完全錯誤且毫無意義。
* **4（通過所有可能的測試）：** 代碼片段完全正確，能處理所有情況。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.skydeck.ai/zh-hk/ai-documentations/llm-evaluation-report.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
