LLM Evaluering Rapport

Model
Dato
Total Svar Tid (s)
Beståede Tests
Gennemsnitlig CodeBLEU (0-1)
Gennemsnitlig Nyttighedsscore (0-4)
Gennemsnitlig Funktionel Korrekthedsscore (0-4)

o1-preview

2025-02-08

2072.82

131

0.325266

3.59146

3.56707

o1-mini

2025-02-08

911.16

119

0.328767

3.65854

3.63415

gpt-4o

2025-02-08

318.254

123

0.32412

3.7378

3.70732

gpt-4o-mini

2025-02-08

220.633

118

0.324247

3.64024

3.70122

claude-3-5-sonnet-20240620

2025-02-08

277.335

112

0.302276

3.65244

3.61585

claude-3-5-sonnet-20241022

2025-02-08

311.414

106

0.319294

3.65854

3.62805

gemini-1.5-pro

2025-02-08

498.532

97

0.341364

3.4878

3.42073

gemini-1.5-flash

2025-02-08

772.724

0

0.260233

0.609756

0.786585

Total Svar Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.

Beståede tests: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

Gennemsnitlig CodeBLEU: Gennemsnitlig CodeBLEU-score, en metrisk for evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

Gennemsnitlig Nyttighedsscore: Gennemsnitlig vurdering af modellens output-nyttighed vurderet af en LLM-model.

  • 0: Snippet er slet ikke hjælpsomt, det er irrelevant for problemet.

  • 1: Snippet er lidt hjælpsomt, det indeholder information, der er relevant for problemet, men det er lettere at skrive løsningen fra bunden.

  • 2: Snippet er nogenlunde hjælpsomt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.

  • 3: Snippet er hjælpsomt, men skal ændres lidt for at løse problemet.

  • 4: Snippet er meget hjælpsomt, det løser problemet.

Gennemsnitlig Funktionel Korrekthedsscore: Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.

  • 0 (består ikke alle mulige tests): Kode-snippet er helt forkert og meningsløst.

  • 4 (består alle mulige tests): Kode-snippet er helt korrekt og kan håndtere alle tilfælde.

Last updated