Rapport d'évaluation LLM
Dernière mise à jour
Dernière mise à jour
o1-preview
2025-04-01
2681.95
134
0.314319
3.64634
3.7378
o1-mini
2025-04-01
959.029
128
0.33127
3.7378
3.79268
gpt-4o
2025-04-01
186.904
120
0.309362
3.73171
3.77439
gpt-4o-mini
2025-04-01
232.511
117
0.328017
3.65854
3.66463
claude-3-5-sonnet-20240620
2025-04-01
512.452
107
0.300656
3.64024
3.56098
claude-3-5-sonnet-20241022
2025-04-01
311.039
112
0.32159
3.68902
3.69512
gemini-1.5-pro
2025-04-01
518.565
99
0.33285
3.48171
3.4939
gemini-1.5-flash
2025-04-01
758.837
0
0.266851
0.829268
1.26829
Temps total de réponse (s) : Le temps total pris par le modèle pour générer toutes les sorties.
Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.
CodeBLEU moyen : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.
Score d'utilité moyen : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.
0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.
1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution depuis le début.
2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.
3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
4 : L'extrait est très utile, il résout le problème.
Score de correction fonctionnelle moyen : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.
0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et dénué de sens.
4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.