Rapport d'évaluation LLM

Modèle
Date
Temps total de réponse (s)
Tests réussis
CodeBLEU moyen (0-1)
Score d'utilité moyen (0-4)
Score de correction fonctionnelle moyen (0-4)

gpt-5

2025-10-01

2864.33

161

0.307856

3.84756

3.84756

gpt-5-mini

2025-10-01

2529.73

160

0.309437

3.88415

3.92073

gpt-5-nano

2025-10-01

1681.91

152

0.305554

3.82927

3.85366

gpt-4.1

2025-10-01

252.895

156

0.337819

3.89634

3.92073

claude-opus-4-1-20250805

2025-10-01

761.552

161

0.35051

3.87195

3.92683

claude-opus-4-20250514

2025-10-01

705.543

159

0.347384

3.86585

3.93293

claude-sonnet-4-5-20250929

2025-10-01

632.707

162

0.335302

3.95122

3.96341

claude-sonnet-4-20250514

2025-10-01

578.039

161

0.321841

3.90854

3.95732

gemini-2.5-pro

2025-10-01

3375.77

141

0.365963

3.82927

3.90244

gemini-2.5-flash

2025-10-01

1324.6

151

0.331303

3.84756

3.92683

Temps total de réponse (s) : Le temps total pris par le modèle pour générer toutes les sorties.

Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

CodeBLEU moyen CodeBLEU : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée sur la correction syntaxique et sémantique.

Score d'utilité moyen Usefulness Score : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

  • 0 : L'extrait n'est pas du tout utile, il est hors sujet.

  • 1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution depuis le début.

  • 2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.

  • 3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.

  • 4 : L'extrait est très utile, il résout le problème.

Score de correction fonctionnelle moyen Functional Correctness Score : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

  • 0 (échec de tous les tests possibles) : L'extrait de code est totalement incorrect et sans signification.

  • 4 (réussite de tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.

Mis à jour