Rapport d'Évaluation LLM
Modèle | Date | Temps de réponse total (s) | Tests réussis | CodeBLEU moyen (0-1) | Score d'utilité moyen (0-4) | Score de correction fonctionnelle moyen (0-4) |
---|---|---|---|---|---|---|
gpt-4o-mini | 2024-10-18 | 180.098 | 113 | 0.331988 | 3.66463 | 3.65854 |
gemini-1.5-pro | 2024-10-18 | 533.694 | 104 | 0.338663 | 3.55488 | 3.59756 |
claude-3-5-sonnet-20240620 | 2024-10-18 | 339.244 | 112 | 0.300819 | 3.68293 | 3.65854 |
gpt-4o | 2024-10-18 | 201.997 | 128 | 0.314057 | 3.75 | 3.71951 |
o1-mini | 2024-10-18 | 773.989 | 130 | 0.335063 | 3.71951 | 3.71951 |
o1-preview | 2024-10-18 | 2207.5 | 127 | 0.322271 | 3.60366 | 3.60976 |
claude-3-opus-20240229 | 2024-10-18 | 1056.03 | 114 | 0.322514 | 3.7439 | 3.67683 |
Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.
Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.
CodeBLEU moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée à la fois sur la correction syntaxique et sémantique.
Score d'utilité moyen Usefulness Score : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.
0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.
1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution de zéro.
2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.
3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.
4 : L'extrait est très utile, il résout le problème.
Score de correction fonctionnelle moyen Functional Correctness Score : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.
0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et dépourvu de sens.
4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.
Dernière mise à jour