Rapport d'évaluation LLM

Modèle
Date
Temps de réponse total (s)
Tests réussis
Score moyen CodeBLEU (0-1)
Score moyen d'utilité (0-4)
Score moyen de correction fonctionnelle (0-4)

o1-preview

2025-02-06

2460.71

130

0.300355

3.62195

3.64634

o1-mini

2025-02-06

1169.48

123

0.33154

3.68902

3.67683

gpt-4o

2025-02-06

413.287

122

0.312401

3.70122

3.67683

gpt-4o-mini

2025-02-06

245.404

119

0.333494

3.65244

3.71951

claude-3-5-sonnet-20240620

2025-02-06

335.54

113

0.300797

3.65244

3.66463

claude-3-5-sonnet-20241022

2025-02-06

374.136

117

0.333618

3.72561

3.70732

gemini-1.5-pro

2025-02-06

500.452

107

0.325038

3.4878

3.5061

gemini-1.5-flash

2025-02-06

768.339

1

0.26343

0.72561

0.835366

Temps de réponse total (s) : Le temps total pris par le modèle pour générer toutes les sorties.

Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

Score moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.

Score moyen d'utilité : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

  • 0 : L'extrait n'est pas du tout utile, il est hors sujet.

  • 1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution depuis le début.

  • 2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.

  • 3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.

  • 4 : L'extrait est très utile, il résout le problème.

Score moyen de correction fonctionnelle : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

  • 0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et dépourvu de sens.

  • 4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.

Dernière mise à jour