Rapport d'évaluation LLM

Modèle
Date
Temps de réponse total (s)
Tests réussis
Score moyen CodeBLEU (0-1)
Score moyen d'utilité (0-4)
Score moyen de correction fonctionnelle (0-4)

o1-preview

2025-02-20

2451.03

131

0.314639

3.61585

3.64634

o1-mini

2025-02-20

928.39

129

0.335718

3.68293

3.80488

gpt-4o

2025-02-20

289.807

128

0.313906

3.66463

3.69512

gpt-4o-mini

2025-02-20

221.797

123

0.334122

3.69512

3.78659

claude-3-5-sonnet-20240620

2025-02-20

263.726

110

0.295577

3.66463

3.60976

claude-3-5-sonnet-20241022

2025-02-20

475.506

111

0.320836

3.67683

3.69512

gemini-1.5-pro

2025-02-20

503.725

99

0.335552

3.47561

3.52439

gemini-1.5-flash

2025-02-20

764.748

2

0.259287

0.792683

1.2378

Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.

Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

Score moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.

Score moyen d'utilité : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

  • 0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.

  • 1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution de zéro.

  • 2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.

  • 3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.

  • 4 : L'extrait est très utile, il résout le problème.

Score moyen de correction fonctionnelle : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

  • 0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et dénué de sens.

  • 4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.

Dernière mise à jour