Rapport d'Évaluation LLM

Modèle
Date
Temps de réponse total (s)
Tests réussis
Moyenne CodeBLEU (0-1)
Moyenne du score d'utilité (0-4)
Moyenne du score de correction fonctionnelle (0-4)

o1-preview

2025-01-06

1965.75

128

0.315979

3.60976

3.63415

o1-mini

2025-01-06

712.957

128

0.335195

3.7439

4.38415

gpt-4o

2025-01-06

228.009

124

0.327812

3.70122

3.75

gpt-4o-mini

2025-01-06

259.123

116

0.330356

3.63415

3.65854

claude-3-5-sonnet-20240620

2025-01-06

274.288

113

0.30286

3.62195

3.65244

claude-3-5-sonnet-20241022

2025-01-06

360.954

109

0.325093

3.64024

3.60366

gemini-1.5-pro

2025-01-06

532.02

107

0.325293

3.5

3.40854

gemini-1.5-flash

2025-01-06

768.094

1

0.262845

0.567073

0.841463

Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.

Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

Moyenne CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.

Moyenne Score d'utilité : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

  • 0 : L'extrait n'est pas du tout utile, il est hors sujet.

  • 1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution de zéro.

  • 2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.

  • 3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.

  • 4 : L'extrait est très utile, il résout le problème.

Moyenne Score de correction fonctionnelle : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

  • 0 (échouant à tous les tests possibles) : L'extrait de code est totalement incorrect et dépourvu de sens.

  • 4 (réussissant tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.

Dernière mise à jour