LLM Evaluering Rapport

Model

Dato

Total Respons Tid (s)

Beståede Tests

Gennemsnitlig CodeBLEU (0-1)

Gennemsnitlig Nyttighed Score (0-4)

Gennemsnitlig Funktionel Korrekthed Score (0-4)

o1-preview

2024-12-21

2222.02

135

0.315387

3.60366

3.62195

o1-mini

2024-12-21

742.336

128

0.34076

3.70122

3.71341

gpt-4o

2024-12-21

328.26

124

0.321923

3.70732

3.68293

gpt-4o-mini

2024-12-21

209.742

122

0.335439

3.64024

3.63415

claude-3-5-sonnet-20240620

2024-12-21

295.78

117

0.299314

3.66463

3.63415

claude-3-5-sonnet-20241022

2024-12-21

263.51

114

0.330973

3.67073

3.62805

gemini-1.5-pro

2024-12-21

507.269

0.347441

3.45122

3.43293

gemini-1.5-flash

2024-12-21

768.506

0.263737

0.628049

0.835366

Total Respons Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.

Beståede tests: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

Gennemsnitlig CodeBLEU: Gennemsnitlig CodeBLEU score, en metrisk for evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

Gennemsnitlig Nyttighed Score: Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.

0: Snippet er slet ikke hjælpsomt, det er irrelevant for problemet.
1: Snippet er lidt hjælpsomt, det indeholder information relevant for problemet, men det er lettere at skrive løsningen fra bunden.
2: Snippet er nogenlunde hjælpsomt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.
3: Snippet er hjælpsomt, men skal ændres lidt for at løse problemet.
4: Snippet er meget hjælpsomt, det løser problemet.

Gennemsnitlig Funktionel Korrekthed Score: Gennemsnitlig score for den funktionelle korrekthed af modellens output, vurderer hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.

0 (består ikke alle mulige tests): Kode snippetet er helt forkert og meningsløst.
4 (består alle mulige tests): Kode snippetet er helt korrekt og kan håndtere alle tilfælde.

Last updated 15 hours ago