Rapport d'Évaluation LLM
Modèle | Date | Temps de réponse total (s) | Tests réussis | CodeBLEU moyen (0-1) | Score d'utilité moyen (0-4) | Score de correction fonctionnelle moyen (0-4) |
---|---|---|---|---|---|---|
o1-preview | 2024-12-03 | 2161.43 | 128 | 0.314788 | 3.61585 | 3.55488 |
o1-mini | 2024-12-03 | 744.564 | 127 | 0.336743 | 3.69512 | 3.70122 |
gpt-4o | 2024-12-03 | 248.963 | 120 | 0.315979 | 3.67073 | 3.72561 |
gpt-4o-mini | 2024-12-03 | 247.221 | 119 | 0.330415 | 3.65854 | 3.67683 |
claude-3-5-sonnet-20240620 | 2024-12-03 | 370.939 | 107 | 0.30021 | 3.5 | 3.56098 |
claude-3-5-sonnet-20241022 | 2024-12-03 | 389.978 | 107 | 0.324545 | 3.56098 | 3.57317 |
gemini-1.5-pro | 2024-12-03 | 561.468 | 101 | 0.34014 | 3.48171 | 3.42683 |
gemini-1.5-flash | 2024-12-03 | 743.065 | 1 | 0.26407 | 0.756098 | 0.981707 |
Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.
Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.
CodeBLEU moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.
Score d'utilité moyen Usefulness Score : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.
0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.
1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution depuis le début.
2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.
3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
4 : L'extrait est très utile, il résout le problème.
Score de correction fonctionnelle moyen Functional Correctness Score : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.
0 (échouant à tous les tests possibles) : L'extrait de code est totalement incorrect et sans signification.
4 (réussissant à tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.
Dernière mise à jour