LLM-evalueringsrapport

Model
Dato
Total Respons Tid (s)
Tests Bestået
Gennemsnitlig CodeBLEU (0-1)
Gennemsnitlig Nyttighedsscore (0-4)
Gennemsnitlig Funktionel Korrekthedsscore (0-4)

gpt-5

2025-10-01

2864.33

161

0.307856

3.84756

3.84756

gpt-5-mini

2025-10-01

2529.73

160

0.309437

3.88415

3.92073

gpt-5-nano

2025-10-01

1681.91

152

0.305554

3.82927

3.85366

gpt-4.1

2025-10-01

252.895

156

0.337819

3.89634

3.92073

claude-opus-4-1-20250805

2025-10-01

761.552

161

0.35051

3.87195

3.92683

claude-opus-4-20250514

2025-10-01

705.543

159

0.347384

3.86585

3.93293

claude-sonnet-4-5-20250929

2025-10-01

632.707

162

0.335302

3.95122

3.96341

claude-sonnet-4-20250514

2025-10-01

578.039

161

0.321841

3.90854

3.95732

gemini-2.5-pro

2025-10-01

3375.77

141

0.365963

3.82927

3.90244

gemini-2.5-flash

2025-10-01

1324.6

151

0.331303

3.84756

3.92683

Total Respons Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.

Tests bestået: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

Gennemsnitlig CodeBLEU: Gennemsnitlig CodeBLEU-score, en metrisk til evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

Gennemsnitlig Nyttighedsscore: Gennemsnitlig vurdering af modellens output-nyttighed som vurderet af en LLM-model.

  • 0: Snippet er slet ikke nyttigt, det er irrelevant for problemet.

  • 1: Snippet er lidt nyttigt, det indeholder information, der er relevant for problemet, men det er lettere at skrive løsningen fra bunden.

  • 2: Snippet er noget nyttigt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.

  • 3: Snippet er nyttigt, men skal ændres lidt for at løse problemet.

  • 4: Snippet er meget nyttigt, det løser problemet.

Gennemsnitlig Funktionel Korrekthedsscore: Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.

  • 0 (består ikke alle mulige tests): Kodesnippet er helt forkert og meningsløst.

  • 4 (består alle mulige tests): Kodesnippet er helt korrekt og kan håndtere alle tilfælde.

Last updated