Rapport d'Évaluation LLM
o1-preview
2025-01-06
1965.75
128
0.315979
3.60976
3.63415
o1-mini
2025-01-06
712.957
128
0.335195
3.7439
4.38415
gpt-4o
2025-01-06
228.009
124
0.327812
3.70122
3.75
gpt-4o-mini
2025-01-06
259.123
116
0.330356
3.63415
3.65854
claude-3-5-sonnet-20240620
2025-01-06
274.288
113
0.30286
3.62195
3.65244
claude-3-5-sonnet-20241022
2025-01-06
360.954
109
0.325093
3.64024
3.60366
gemini-1.5-pro
2025-01-06
532.02
107
0.325293
3.5
3.40854
gemini-1.5-flash
2025-01-06
768.094
1
0.262845
0.567073
0.841463
Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.
Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.
Moyenne CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.
Moyenne Score d'utilité : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.
0 : L'extrait n'est pas du tout utile, il est hors sujet.
1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution de zéro.
2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.
3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
4 : L'extrait est très utile, il résout le problème.
Moyenne Score de correction fonctionnelle : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.
0 (échouant à tous les tests possibles) : L'extrait de code est totalement incorrect et dépourvu de sens.
4 (réussissant tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.
Dernière mise à jour