Rapport d'évaluation LLM
o1-preview
2025-02-06
2460.71
130
0.300355
3.62195
3.64634
o1-mini
2025-02-06
1169.48
123
0.33154
3.68902
3.67683
gpt-4o
2025-02-06
413.287
122
0.312401
3.70122
3.67683
gpt-4o-mini
2025-02-06
245.404
119
0.333494
3.65244
3.71951
claude-3-5-sonnet-20240620
2025-02-06
335.54
113
0.300797
3.65244
3.66463
claude-3-5-sonnet-20241022
2025-02-06
374.136
117
0.333618
3.72561
3.70732
gemini-1.5-pro
2025-02-06
500.452
107
0.325038
3.4878
3.5061
gemini-1.5-flash
2025-02-06
768.339
1
0.26343
0.72561
0.835366
Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.
Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.
Score moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.
Score moyen d'utilité : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.
0 : L'extrait n'est pas du tout utile, il est hors sujet.
1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution depuis le début.
2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.
3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
4 : L'extrait est très utile, il résout le problème.
Score moyen de correction fonctionnelle : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.
0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et dépourvu de sens.
4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.
Dernière mise à jour