LLM-evalueringsrapport
o1-preview
2025-03-31
3046.11
126
0.318544
3.56707
3.64024
o1-mini
2025-03-31
882.601
131
0.329601
3.72561
3.79878
gpt-4o
2025-03-31
184.54
128
0.306611
3.75
3.76829
gpt-4o-mini
2025-03-31
226.728
118
0.342398
3.64634
3.73171
claude-3-5-sonnet-20240620
2025-03-31
284.186
108
0.301769
3.64634
3.63415
claude-3-5-sonnet-20241022
2025-03-31
309.034
117
0.325797
3.73171
3.71951
gemini-1.5-pro
2025-03-31
516.334
100
0.339682
3.55488
3.48171
gemini-1.5-flash
2025-03-31
758.837
0
0.266851
0.829268
1.26829
Total Respons Tid (s): Den samlede tid, det tog modellen at generere alle output.
Beståede tests: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.
Gennemsnitlig CodeBLEU: Gennemsnitlig CodeBLEU score, en metrisk til vurdering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.
Gennemsnitlig Nyttighed Score: Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.
0: Snippet er slet ikke hjælpsomt, det er irrelevant for problemet.
1: Snippet er lidt hjælpsomt, det indeholder information, der er relevant for problemet, men det er lettere at skrive løsningen fra bunden.
2: Snippet er nogenlunde hjælpsomt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.
3: Snippet er hjælpsomt, men skal ændres lidt for at løse problemet.
4: Snippet er meget hjælpsomt, det løser problemet.
Gennemsnitlig Funktionel Korrekthed Score: Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.
0 (mislykkes i alle mulige tests): Kode snippetet er helt forkert og meningsløst.
4 (består i alle mulige tests): Kode snippetet er helt korrekt og kan håndtere alle tilfælde.
Last updated