# LLM Evaluering Rapport

| Model                         | Dato       | Total Respons Tid (s) | Beståede Tests | Gennemsnitlig CodeBLEU (0-1) | Gennemsnitlig Nyttighed Score (0-4) | Gennemsnitlig Funktionel Korrekthed Score (0-4) |
| ----------------------------- | ---------- | --------------------: | -------------: | ---------------------------: | ----------------------------------: | ----------------------------------------------: |
| gpt-5.4                       | 2026-03-18 |               371.302 |            151 |                      0.30016 |                             3.85976 |                                         3.88415 |
| gpt-5                         | 2026-03-18 |               3307.15 |            160 |                     0.312013 |                             3.71951 |                                         3.82927 |
| gpt-5-mini                    | 2026-03-18 |               2223.12 |            161 |                     0.305418 |                             3.79268 |                                         3.93293 |
| claude-opus-4-6               | 2026-03-18 |               630.643 |            164 |                      0.38829 |                             3.87195 |                                         3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                604.89 |            161 |                     0.379059 |                             3.85366 |                                         3.90854 |
| claude-opus-4-1               | 2026-03-18 |               635.166 |            157 |                     0.349491 |                             3.85366 |                                         3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                546.74 |            162 |                     0.331766 |                             3.89024 |                                         3.95732 |
| claude-haiku-4-5              | 2026-03-18 |               280.497 |            154 |                     0.317284 |                             3.84756 |                                         3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |               3339.78 |            162 |                     0.395161 |                             3.73171 |                                         3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |               176.493 |            148 |                     0.370935 |                             3.77439 |                                         3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |               2146.97 |            142 |                     0.395257 |                             3.59146 |                                         3.60366 |
| gemini-2.5-pro                | 2026-03-18 |               2788.94 |            118 |                     0.373488 |                              3.2561 |                                         3.38415 |
| gemini-2.5-flash              | 2026-03-18 |               952.543 |            148 |                     0.338621 |                              3.7439 |                                         3.83537 |

**Total Respons Tid (s):** Den samlede tid, som modellen har brugt på at generere alle output.

**Beståede tests:** Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

**Gennemsnitlig** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** Gennemsnitlig CodeBLEU score, en metrik til evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

**Gennemsnitlig** [**Nyttighed Score**](https://arxiv.org/abs/2304.14317)**:** Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.

* **0:** Snippet er slet ikke nyttigt, det er irrelevant for problemet.
* **1:** Snippet er lidt nyttigt, det indeholder information, der er relevant for problemet, men det er lettere at skrive løsningen fra bunden.
* **2:** Snippet er nogenlunde nyttigt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.
* **3:** Snippet er nyttigt, men skal ændres lidt for at løse problemet.
* **4:** Snippet er meget nyttigt, det løser problemet.

**Gennemsnitlig** [**Funktionel Korrekthed Score**](https://arxiv.org/abs/2304.14317)**:** Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.

* **0 (består ikke alle mulige tests):** Kode-snippet er helt forkert og meningsløst.
* **4 (består alle mulige tests):** Kode-snippet er helt korrekt og kan håndtere alle tilfælde.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.skydeck.ai/da/ai-documentations/llm-evaluation-report.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
