> For the complete documentation index, see [llms.txt](https://docs.skydeck.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.skydeck.ai/de/ai-documentations/llm-evaluation-report.md).

# LLM-Evaluierungsbericht

| Modell                        | Datum      | Gesamte Antwortzeit (s) | Bestehende Tests | Durchschnittlicher CodeBLEU (0-1) | Durchschnittlicher Nützlichkeitswert (0-4) | Durchschnittlicher funktionaler Korrektheitswert (0-4) |
| ----------------------------- | ---------- | ----------------------: | ---------------: | --------------------------------: | -----------------------------------------: | -----------------------------------------------------: |
| gpt-5.4                       | 2026-03-18 |                 371.302 |              151 |                           0.30016 |                                    3.85976 |                                                3.88415 |
| gpt-5                         | 2026-03-18 |                 3307.15 |              160 |                          0.312013 |                                    3.71951 |                                                3.82927 |
| gpt-5-mini                    | 2026-03-18 |                 2223.12 |              161 |                          0.305418 |                                    3.79268 |                                                3.93293 |
| claude-opus-4-6               | 2026-03-18 |                 630.643 |              164 |                           0.38829 |                                    3.87195 |                                                3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                  604.89 |              161 |                          0.379059 |                                    3.85366 |                                                3.90854 |
| claude-opus-4-1               | 2026-03-18 |                 635.166 |              157 |                          0.349491 |                                    3.85366 |                                                3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                  546.74 |              162 |                          0.331766 |                                    3.89024 |                                                3.95732 |
| claude-haiku-4-5              | 2026-03-18 |                 280.497 |              154 |                          0.317284 |                                    3.84756 |                                                3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |                 3339.78 |              162 |                          0.395161 |                                    3.73171 |                                                3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |                 176.493 |              148 |                          0.370935 |                                    3.77439 |                                                3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |                 2146.97 |              142 |                          0.395257 |                                    3.59146 |                                                3.60366 |
| gemini-2.5-pro                | 2026-03-18 |                 2788.94 |              118 |                          0.373488 |                                     3.2561 |                                                3.38415 |
| gemini-2.5-flash              | 2026-03-18 |                 952.543 |              148 |                          0.338621 |                                     3.7439 |                                                3.83537 |

**Gesamte Antwortzeit (s):** Die gesamte Zeit, die das Modell benötigt hat, um alle Ausgaben zu generieren.

**Bestehende Tests:** Die Anzahl der Unit-Tests, die das Modell während der Bewertung bestanden hat, von insgesamt 164 Tests.

**Durchschnittlicher** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** Durchschnittlicher CodeBLEU-Wert, eine Metrik zur Bewertung der Qualität der Codegenerierung basierend auf syntaktischer und semantischer Korrektheit.

**Durchschnittlicher** [**Nützlichkeitswert**](https://arxiv.org/abs/2304.14317)**:** Durchschnittliche Bewertung der Nützlichkeit der Ausgaben des Modells, bewertet durch ein LLM-Modell.

* **0:** Snippet ist überhaupt nicht hilfreich, es ist irrelevant für das Problem.
* **1:** Snippet ist leicht hilfreich, es enthält Informationen, die für das Problem relevant sind, aber es ist einfacher, die Lösung von Grund auf neu zu schreiben.
* **2:** Snippet ist einigermaßen hilfreich, es erfordert erhebliche Änderungen (im Vergleich zur Größe des Snippets), ist aber dennoch nützlich.
* **3:** Snippet ist hilfreich, muss jedoch leicht geändert werden, um das Problem zu lösen.
* **4:** Snippet ist sehr hilfreich, es löst das Problem.

**Durchschnittlicher** [**funktionaler Korrektheitswert**](https://arxiv.org/abs/2304.14317)**:** Durchschnittlicher Wert der funktionalen Korrektheit der Ausgaben des Modells, der bewertet, wie gut die Ausgaben die funktionalen Anforderungen erfüllen, bewertet durch ein LLM-Modell.

* **0 (alle möglichen Tests nicht bestanden):** Der Code-Snippet ist völlig falsch und bedeutungslos.
* **4 (alle möglichen Tests bestanden):** Der Code-Snippet ist völlig korrekt und kann alle Fälle behandeln.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.skydeck.ai/de/ai-documentations/llm-evaluation-report.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
