LLM Evaluering Rapport
Last updated
Last updated
o1-preview
2025-04-02
3264.19
134
0.320351
3.60976
3.59756
o1-mini
2025-04-02
964.977
129
0.336816
3.69512
3.75
gpt-4o
2025-04-02
228.668
128
0.310692
3.71951
3.67073
gpt-4o-mini
2025-04-02
248.679
116
0.321981
3.62805
3.61585
claude-3-5-sonnet-20240620
2025-04-02
276.394
108
0.30484
3.67683
3.66463
claude-3-5-sonnet-20241022
2025-04-02
291.706
112
0.328969
3.68902
3.70732
gemini-1.5-pro
2025-04-02
518.354
103
0.327295
3.46951
3.41463
gemini-1.5-flash
2025-04-02
763.949
0
0.261228
0.792683
1.32317
Total Respons Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.
Tests bestået: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.
Gennemsnitlig : Gennemsnitlig CodeBLEU score, en metrisk for evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.
Gennemsnitlig : Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.
0: Snippet er slet ikke hjælpsomt, det er irrelevant for problemet.
1: Snippet er lidt hjælpsomt, det indeholder information relevant for problemet, men det er lettere at skrive løsningen fra bunden.
2: Snippet er nogenlunde hjælpsomt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.
3: Snippet er hjælpsomt, men skal ændres lidt for at løse problemet.
4: Snippet er meget hjælpsomt, det løser problemet.
Gennemsnitlig : Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.
0 (består ikke alle mulige tests): Kode-snippet er helt forkert og meningsløst.
4 (består alle mulige tests): Kode-snippet er helt korrekt og kan håndtere alle tilfælde.