Rapport d'Évaluation LLM

ModèleDateTemps de réponse total (s)Tests réussisCodeBLEU moyen (0-1)Score d'utilité moyen (0-4)Score de correction fonctionnelle moyen (0-4)

o1-preview

2024-12-03

2161.43

128

0.314788

3.61585

3.55488

o1-mini

2024-12-03

744.564

127

0.336743

3.69512

3.70122

gpt-4o

2024-12-03

248.963

120

0.315979

3.67073

3.72561

gpt-4o-mini

2024-12-03

247.221

119

0.330415

3.65854

3.67683

claude-3-5-sonnet-20240620

2024-12-03

370.939

107

0.30021

3.5

3.56098

claude-3-5-sonnet-20241022

2024-12-03

389.978

107

0.324545

3.56098

3.57317

gemini-1.5-pro

2024-12-03

561.468

101

0.34014

3.48171

3.42683

gemini-1.5-flash

2024-12-03

743.065

1

0.26407

0.756098

0.981707

Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.

Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

CodeBLEU moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.

Score d'utilité moyen Usefulness Score : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

  • 0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.

  • 1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution depuis le début.

  • 2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.

  • 3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.

  • 4 : L'extrait est très utile, il résout le problème.

Score de correction fonctionnelle moyen Functional Correctness Score : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

  • 0 (échouant à tous les tests possibles) : L'extrait de code est totalement incorrect et sans signification.

  • 4 (réussissant à tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.

Dernière mise à jour