LLM Evaluering Rapport
o1-preview
2024-12-21
2222.02
135
0.315387
3.60366
3.62195
o1-mini
2024-12-21
742.336
128
0.34076
3.70122
3.71341
gpt-4o
2024-12-21
328.26
124
0.321923
3.70732
3.68293
gpt-4o-mini
2024-12-21
209.742
122
0.335439
3.64024
3.63415
claude-3-5-sonnet-20240620
2024-12-21
295.78
117
0.299314
3.66463
3.63415
claude-3-5-sonnet-20241022
2024-12-21
263.51
114
0.330973
3.67073
3.62805
gemini-1.5-pro
2024-12-21
507.269
94
0.347441
3.45122
3.43293
gemini-1.5-flash
2024-12-21
768.506
1
0.263737
0.628049
0.835366
Total Respons Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.
Beståede tests: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.
Gennemsnitlig CodeBLEU: Gennemsnitlig CodeBLEU score, en metrisk for evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.
Gennemsnitlig Nyttighed Score: Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.
0: Snippet er slet ikke hjælpsomt, det er irrelevant for problemet.
1: Snippet er lidt hjælpsomt, det indeholder information relevant for problemet, men det er lettere at skrive løsningen fra bunden.
2: Snippet er nogenlunde hjælpsomt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.
3: Snippet er hjælpsomt, men skal ændres lidt for at løse problemet.
4: Snippet er meget hjælpsomt, det løser problemet.
Gennemsnitlig Funktionel Korrekthed Score: Gennemsnitlig score for den funktionelle korrekthed af modellens output, vurderer hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.
0 (består ikke alle mulige tests): Kode snippetet er helt forkert og meningsløst.
4 (består alle mulige tests): Kode snippetet er helt korrekt og kan håndtere alle tilfælde.
Last updated