LLM Bewertungsbericht
o1-vorschau
2024-12-21
2222.02
135
0.315387
3.60366
3.62195
o1-mini
2024-12-21
742.336
128
0.34076
3.70122
3.71341
gpt-4o
2024-12-21
328.26
124
0.321923
3.70732
3.68293
gpt-4o-mini
2024-12-21
209.742
122
0.335439
3.64024
3.63415
claude-3-5-sonett-20240620
2024-12-21
295.78
117
0.299314
3.66463
3.63415
claude-3-5-sonett-20241022
2024-12-21
263.51
114
0.330973
3.67073
3.62805
gemini-1.5-pro
2024-12-21
507.269
94
0.347441
3.45122
3.43293
gemini-1.5-blitz
2024-12-21
768.506
1
0.263737
0.628049
0.835366
Gesamte Antwortzeit (s): Die gesamte Zeit, die das Modell benötigt hat, um alle Ausgaben zu generieren.
Bestehende Tests: Die Anzahl der Unit-Tests, die das Modell während der Evaluierung bestanden hat, von insgesamt 164 Tests.
Durchschnittlicher CodeBLEU: Durchschnittlicher CodeBLEU-Wert, eine Metrik zur Bewertung der Qualität der Codegenerierung basierend auf syntaktischer und semantischer Korrektheit.
Durchschnittlicher Nützlichkeitswert: Durchschnittliche Bewertung der Nützlichkeit der Ausgaben des Modells, bewertet von einem LLM-Modell.
0: Snippet ist überhaupt nicht hilfreich, es ist irrelevant für das Problem.
1: Snippet ist leicht hilfreich, es enthält Informationen, die für das Problem relevant sind, aber es ist einfacher, die Lösung von Grund auf neu zu schreiben.
2: Snippet ist einigermaßen hilfreich, es erfordert erhebliche Änderungen (im Vergleich zur Größe des Snippets), ist aber dennoch nützlich.
3: Snippet ist hilfreich, muss aber leicht geändert werden, um das Problem zu lösen.
4: Snippet ist sehr hilfreich, es löst das Problem.
Durchschnittlicher funktionaler Korrektheitswert: Durchschnittlicher Wert der funktionalen Korrektheit der Ausgaben des Modells, der bewertet, wie gut die Ausgaben die funktionalen Anforderungen erfüllen, bewertet von einem LLM-Modell.
0 (alle möglichen Tests nicht bestanden): Der Code-Snippet ist völlig falsch und bedeutungslos.
4 (alle möglichen Tests bestanden): Der Code-Snippet ist völlig korrekt und kann alle Fälle behandeln.
Last updated