# Informe de Evaluación de LLM

| Modelo                        | Fecha      | Tiempo Total de Respuesta (s) | Pruebas Aprobadas | Media CodeBLEU (0-1) | Media de Puntuación de Utilidad (0-4) | Media de Puntuación de Corrección Funcional (0-4) |
| ----------------------------- | ---------- | ----------------------------: | ----------------: | -------------------: | ------------------------------------: | ------------------------------------------------: |
| gpt-5.4                       | 2026-03-18 |                       371.302 |               151 |              0.30016 |                               3.85976 |                                           3.88415 |
| gpt-5                         | 2026-03-18 |                       3307.15 |               160 |             0.312013 |                               3.71951 |                                           3.82927 |
| gpt-5-mini                    | 2026-03-18 |                       2223.12 |               161 |             0.305418 |                               3.79268 |                                           3.93293 |
| claude-opus-4-6               | 2026-03-18 |                       630.643 |               164 |              0.38829 |                               3.87195 |                                           3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                        604.89 |               161 |             0.379059 |                               3.85366 |                                           3.90854 |
| claude-opus-4-1               | 2026-03-18 |                       635.166 |               157 |             0.349491 |                               3.85366 |                                           3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                        546.74 |               162 |             0.331766 |                               3.89024 |                                           3.95732 |
| claude-haiku-4-5              | 2026-03-18 |                       280.497 |               154 |             0.317284 |                               3.84756 |                                           3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |                       3339.78 |               162 |             0.395161 |                               3.73171 |                                           3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |                       176.493 |               148 |             0.370935 |                               3.77439 |                                           3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |                       2146.97 |               142 |             0.395257 |                               3.59146 |                                           3.60366 |
| gemini-2.5-pro                | 2026-03-18 |                       2788.94 |               118 |             0.373488 |                                3.2561 |                                           3.38415 |
| gemini-2.5-flash              | 2026-03-18 |                       952.543 |               148 |             0.338621 |                                3.7439 |                                           3.83537 |

**Tiempo Total de Respuesta (s):** El tiempo total que tomó al modelo generar todas las salidas.

**Pruebas aprobadas:** El número de pruebas unitarias que el modelo ha aprobado durante la evaluación, de un total de 164 pruebas.

**Media** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** Puntuación promedio de CodeBLEU, una métrica para evaluar la calidad de generación de código basada en la corrección sintáctica y semántica.

**Media** [**Puntuación de Utilidad**](https://arxiv.org/abs/2304.14317)**:** Calificación promedio de la utilidad de la salida del modelo según lo evaluado por un modelo LLM.

* **0:** El fragmento no es útil en absoluto, es irrelevante para el problema.
* **1:** El fragmento es ligeramente útil, contiene información relevante para el problema, pero es más fácil escribir la solución desde cero.
* **2:** El fragmento es algo útil, requiere cambios significativos (en comparación con el tamaño del fragmento), pero sigue siendo útil.
* **3:** El fragmento es útil, pero necesita ser ligeramente modificado para resolver el problema.
* **4:** El fragmento es muy útil, resuelve el problema.

**Media** [**Puntuación de Corrección Funcional**](https://arxiv.org/abs/2304.14317)**:** Puntuación promedio de la corrección funcional de las salidas del modelo, evaluando qué tan bien las salidas cumplen con los requisitos funcionales, evaluadas por un modelo LLM.

* **0 (fallando todas las pruebas posibles):** El fragmento de código es totalmente incorrecto y sin sentido.
* **4 (aprobando todas las pruebas posibles):** El fragmento de código es totalmente correcto y puede manejar todos los casos.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.skydeck.ai/es/ai-documentations/llm-evaluation-report.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
