LLM Evaluering Rapport
o1-preview
2025-01-21
2379.88
131
0.317852
3.62805
3.62805
o1-mini
2025-01-21
933.915
128
0.326939
3.68293
3.77439
gpt-4o
2025-01-21
317.122
121
0.321377
3.75
3.7622
gpt-4o-mini
2025-01-21
309.799
117
0.338521
3.68902
3.75
claude-3-5-sonnet-20240620
2025-01-21
244.255
111
0.298804
3.62805
3.65244
claude-3-5-sonnet-20241022
2025-01-21
254.239
115
0.312278
3.70732
3.66463
gemini-1.5-pro
2025-01-21
507.246
101
0.335308
3.48171
3.47561
gemini-1.5-flash
2025-01-21
764.864
2
0.267744
0.689024
0.914634
Total svartid (s): Den samlede tid, som modellen har brugt på at generere alle output.
Beståede tests: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.
Gennemsnitlig CodeBLEU: Gennemsnitlig CodeBLEU-score, en metrisk til evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.
Gennemsnitlig nytteværdi score: Gennemsnitlig vurdering af modellens output nytteværdi, vurderet af en LLM-model.
0: Snippet er slet ikke nyttigt, det er irrelevant for problemet.
1: Snippet er lidt nyttigt, det indeholder information, der er relevant for problemet, men det er lettere at skrive løsningen fra bunden.
2: Snippet er nogenlunde nyttigt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.
3: Snippet er nyttigt, men skal ændres lidt for at løse problemet.
4: Snippet er meget nyttigt, det løser problemet.
Gennemsnitlig funktionel korrekthed score: Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.
0 (består ikke alle mulige tests): Kode-snippet er helt forkert og meningsløst.
4 (består alle mulige tests): Kode-snippet er helt korrekt og kan håndtere alle tilfælde.
Last updated