Rapport d'évaluation LLM
o1-preview
2025-03-31
3046.11
126
0.318544
3.56707
3.64024
o1-mini
2025-03-31
882.601
131
0.329601
3.72561
3.79878
gpt-4o
2025-03-31
184.54
128
0.306611
3.75
3.76829
gpt-4o-mini
2025-03-31
226.728
118
0.342398
3.64634
3.73171
claude-3-5-sonnet-20240620
2025-03-31
284.186
108
0.301769
3.64634
3.63415
claude-3-5-sonnet-20241022
2025-03-31
309.034
117
0.325797
3.73171
3.71951
gemini-1.5-pro
2025-03-31
516.334
100
0.339682
3.55488
3.48171
gemini-1.5-flash
2025-03-31
758.837
0
0.266851
0.829268
1.26829
Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.
Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.
CodeBLEU moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.
Score d'utilité moyen Usefulness Score : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.
0 : L'extrait n'est pas du tout utile, il est hors sujet.
1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution depuis le début.
2 : L'extrait est quelque peu utile, il nécessite des changements significatifs (par rapport à la taille de l'extrait), mais reste utile.
3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
4 : L'extrait est très utile, il résout le problème.
Score de correction fonctionnelle moyen Functional Correctness Score : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.
0 (échouant à tous les tests possibles) : L'extrait de code est totalement incorrect et sans signification.
4 (réussissant à tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.
Dernière mise à jour