# LLM Evaluering Rapport

| Model                         | Dato       | Total Respons Tid (s) | Beståede Tests | Gennemsnitlig CodeBLEU (0-1) | Gennemsnitlig Nyttighed Score (0-4) | Gennemsnitlig Funktionel Korrekthed Score (0-4) |
| ----------------------------- | ---------- | --------------------: | -------------: | ---------------------------: | ----------------------------------: | ----------------------------------------------: |
| gpt-5.4                       | 2026-03-18 |               371.302 |            151 |                      0.30016 |                             3.85976 |                                         3.88415 |
| gpt-5                         | 2026-03-18 |               3307.15 |            160 |                     0.312013 |                             3.71951 |                                         3.82927 |
| gpt-5-mini                    | 2026-03-18 |               2223.12 |            161 |                     0.305418 |                             3.79268 |                                         3.93293 |
| claude-opus-4-6               | 2026-03-18 |               630.643 |            164 |                      0.38829 |                             3.87195 |                                         3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                604.89 |            161 |                     0.379059 |                             3.85366 |                                         3.90854 |
| claude-opus-4-1               | 2026-03-18 |               635.166 |            157 |                     0.349491 |                             3.85366 |                                         3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                546.74 |            162 |                     0.331766 |                             3.89024 |                                         3.95732 |
| claude-haiku-4-5              | 2026-03-18 |               280.497 |            154 |                     0.317284 |                             3.84756 |                                         3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |               3339.78 |            162 |                     0.395161 |                             3.73171 |                                         3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |               176.493 |            148 |                     0.370935 |                             3.77439 |                                         3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |               2146.97 |            142 |                     0.395257 |                             3.59146 |                                         3.60366 |
| gemini-2.5-pro                | 2026-03-18 |               2788.94 |            118 |                     0.373488 |                              3.2561 |                                         3.38415 |
| gemini-2.5-flash              | 2026-03-18 |               952.543 |            148 |                     0.338621 |                              3.7439 |                                         3.83537 |

**Total Respons Tid (s):** Den samlede tid, som modellen har brugt på at generere alle output.

**Beståede tests:** Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

**Gennemsnitlig** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** Gennemsnitlig CodeBLEU score, en metrik til evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

**Gennemsnitlig** [**Nyttighed Score**](https://arxiv.org/abs/2304.14317)**:** Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.

* **0:** Snippet er slet ikke nyttigt, det er irrelevant for problemet.
* **1:** Snippet er lidt nyttigt, det indeholder information, der er relevant for problemet, men det er lettere at skrive løsningen fra bunden.
* **2:** Snippet er nogenlunde nyttigt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.
* **3:** Snippet er nyttigt, men skal ændres lidt for at løse problemet.
* **4:** Snippet er meget nyttigt, det løser problemet.

**Gennemsnitlig** [**Funktionel Korrekthed Score**](https://arxiv.org/abs/2304.14317)**:** Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.

* **0 (består ikke alle mulige tests):** Kode-snippet er helt forkert og meningsløst.
* **4 (består alle mulige tests):** Kode-snippet er helt korrekt og kan håndtere alle tilfælde.
