LLM Bewertungsbericht
Modell | Datum | Gesamte Antwortzeit (s) | Bestehende Tests | Durchschnittlicher CodeBLEU (0-1) | Durchschnittlicher Nützlichkeitswert (0-4) | Durchschnittlicher funktionaler Korrektheitswert (0-4) |
---|---|---|---|---|---|---|
gpt-4o-mini | 2024-10-18 | 180.098 | 113 | 0.331988 | 3.66463 | 3.65854 |
gemini-1.5-pro | 2024-10-18 | 533.694 | 104 | 0.338663 | 3.55488 | 3.59756 |
claude-3-5-sonnet-20240620 | 2024-10-18 | 339.244 | 112 | 0.300819 | 3.68293 | 3.65854 |
gpt-4o | 2024-10-18 | 201.997 | 128 | 0.314057 | 3.75 | 3.71951 |
o1-mini | 2024-10-18 | 773.989 | 130 | 0.335063 | 3.71951 | 3.71951 |
o1-preview | 2024-10-18 | 2207.5 | 127 | 0.322271 | 3.60366 | 3.60976 |
claude-3-opus-20240229 | 2024-10-18 | 1056.03 | 114 | 0.322514 | 3.7439 | 3.67683 |
Gesamte Antwortzeit (s): Die gesamte Zeit, die das Modell benötigt hat, um alle Ausgaben zu generieren.
Bestehende Tests: Die Anzahl der Unit-Tests, die das Modell während der Bewertung bestanden hat, von insgesamt 164 Tests.
Durchschnittlicher CodeBLEU: Durchschnittlicher CodeBLEU-Wert, eine Metrik zur Bewertung der Qualität der Codegenerierung basierend auf syntaktischer und semantischer Korrektheit.
Durchschnittlicher Nützlichkeitswert: Durchschnittliche Bewertung der Nützlichkeit der Ausgaben des Modells, bewertet durch ein LLM-Modell.
0: Snippet ist überhaupt nicht hilfreich, es ist irrelevant für das Problem.
1: Snippet ist leicht hilfreich, es enthält Informationen, die für das Problem relevant sind, aber es ist einfacher, die Lösung von Grund auf neu zu schreiben.
2: Snippet ist einigermaßen hilfreich, es erfordert erhebliche Änderungen (im Vergleich zur Größe des Snippets), ist aber dennoch nützlich.
3: Snippet ist hilfreich, muss aber leicht geändert werden, um das Problem zu lösen.
4: Snippet ist sehr hilfreich, es löst das Problem.
Durchschnittlicher funktionaler Korrektheitswert: Durchschnittlicher Wert der funktionalen Korrektheit der Ausgaben des Modells, bewertet, wie gut die Ausgaben die funktionalen Anforderungen erfüllen, bewertet durch ein LLM-Modell.
0 (alle möglichen Tests nicht bestanden): Der Code-Snippet ist völlig falsch und bedeutungslos.
4 (alle möglichen Tests bestanden): Der Code-Snippet ist völlig korrekt und kann alle Fälle behandeln.
Last updated