Rapport d'évaluation LLM
gpt-5.4
2026-03-18
371.302
151
0.30016
3.85976
3.88415
gpt-5
2026-03-18
3307.15
160
0.312013
3.71951
3.82927
gpt-5-mini
2026-03-18
2223.12
161
0.305418
3.79268
3.93293
claude-opus-4-6
2026-03-18
630.643
164
0.38829
3.87195
3.90854
claude-sonnet-4-6
2026-03-18
604.89
161
0.379059
3.85366
3.90854
claude-opus-4-1
2026-03-18
635.166
157
0.349491
3.85366
3.92683
claude-sonnet-4-5
2026-03-18
546.74
162
0.331766
3.89024
3.95732
claude-haiku-4-5
2026-03-18
280.497
154
0.317284
3.84756
3.92073
gemini-3.1-pro-preview
2026-03-18
3339.78
162
0.395161
3.73171
3.82317
gemini-3.1-flash-lite-preview
2026-03-18
176.493
148
0.370935
3.77439
3.87805
gemini-3-flash-preview
2026-03-18
2146.97
142
0.395257
3.59146
3.60366
gemini-2.5-pro
2026-03-18
2788.94
118
0.373488
3.2561
3.38415
gemini-2.5-flash
2026-03-18
952.543
148
0.338621
3.7439
3.83537
Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.
Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.
CodeBLEU moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.
Score d'utilité moyen Usefulness Score : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.
0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.
1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution de zéro.
2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.
3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
4 : L'extrait est très utile, il résout le problème.
Score de correction fonctionnelle moyen Functional Correctness Score : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.
0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et dénué de sens.
4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.
Mis à jour