Rapport d'Évaluation LLM

ModèleDateTemps de réponse total (s)Tests réussisCodeBLEU moyen (0-1)Score d'utilité moyen (0-4)Score de correction fonctionnelle moyen (0-4)

gpt-4o-mini

2024-10-15

288.593

113

0.336386

3.65854

3.62805

gemini-1.5-pro

2024-10-15

691.622

104

0.342204

3.47561

3.40854

claude-3-5-sonnet-20240620

2024-10-15

369.063

113

0.303837

3.67683

3.59146

gpt-4o

2024-10-15

323.43

127

0.319079

3.73171

3.60976

claude-3-opus-20240229

2024-10-15

1069.89

107

0.307076

3.68902

3.60976

Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.

Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

CodeBLEU moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.

Score d'utilité moyen Usefulness Score : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

  • 0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.

  • 1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution de zéro.

  • 2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.

  • 3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.

  • 4 : L'extrait est très utile, il résout le problème.

Score de correction fonctionnelle moyen Functional Correctness Score : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

  • 0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et dénué de sens.

  • 4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.

Dernière mise à jour