# Rapport d'évaluation LLM

| Modèle                        | Date       | Temps de réponse total (s) | Tests réussis | CodeBLEU moyen (0-1) | Score d'utilité moyen (0-4) | Score de correction fonctionnelle moyen (0-4) |
| ----------------------------- | ---------- | -------------------------: | ------------: | -------------------: | --------------------------: | --------------------------------------------: |
| gpt-5.4                       | 2026-03-18 |                    371.302 |           151 |              0.30016 |                     3.85976 |                                       3.88415 |
| gpt-5                         | 2026-03-18 |                    3307.15 |           160 |             0.312013 |                     3.71951 |                                       3.82927 |
| gpt-5-mini                    | 2026-03-18 |                    2223.12 |           161 |             0.305418 |                     3.79268 |                                       3.93293 |
| claude-opus-4-6               | 2026-03-18 |                    630.643 |           164 |              0.38829 |                     3.87195 |                                       3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                     604.89 |           161 |             0.379059 |                     3.85366 |                                       3.90854 |
| claude-opus-4-1               | 2026-03-18 |                    635.166 |           157 |             0.349491 |                     3.85366 |                                       3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                     546.74 |           162 |             0.331766 |                     3.89024 |                                       3.95732 |
| claude-haiku-4-5              | 2026-03-18 |                    280.497 |           154 |             0.317284 |                     3.84756 |                                       3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |                    3339.78 |           162 |             0.395161 |                     3.73171 |                                       3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |                    176.493 |           148 |             0.370935 |                     3.77439 |                                       3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |                    2146.97 |           142 |             0.395257 |                     3.59146 |                                       3.60366 |
| gemini-2.5-pro                | 2026-03-18 |                    2788.94 |           118 |             0.373488 |                      3.2561 |                                       3.38415 |
| gemini-2.5-flash              | 2026-03-18 |                    952.543 |           148 |             0.338621 |                      3.7439 |                                       3.83537 |

**Temps de réponse total (s) :** Le temps total pris par le modèle pour générer toutes les sorties.

**Tests réussis :** Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

**CodeBLEU moyen** [**CodeBLEU**](https://arxiv.org/abs/2009.10297) **:** Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.

**Score d'utilité moyen** [**Usefulness Score**](https://arxiv.org/abs/2304.14317) **:** Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

* **0 :** L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.
* **1 :** L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution de zéro.
* **2 :** L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.
* **3 :** L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
* **4 :** L'extrait est très utile, il résout le problème.

**Score de correction fonctionnelle moyen** [**Functional Correctness Score**](https://arxiv.org/abs/2304.14317) **:** Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

* **0 (échec de tous les tests possibles) :** L'extrait de code est totalement incorrect et dénué de sens.
* **4 (réussite de tous les tests possibles) :** L'extrait de code est totalement correct et peut gérer tous les cas.
