LLM Evaluering Rapport

Model
Dato
Total Svar Tid (s)
Beståede Tests
Gennemsnitlig CodeBLEU (0-1)
Gennemsnitlig Nyttighed Score (0-4)
Gennemsnitlig Funktionel Korrekthed Score (0-4)

o1-preview

2025-02-21

2688.52

126

0.312426

3.57317

3.60976

o1-mini

2025-02-21

999.934

128

0.353161

3.68293

3.7439

gpt-4o

2025-02-21

211.039

124

0.315859

3.67073

3.75

gpt-4o-mini

2025-02-21

228.654

118

0.33717

3.63415

3.68293

claude-3-5-sonnet-20240620

2025-02-21

279.791

110

0.302947

3.68902

3.70732

claude-3-5-sonnet-20241022

2025-02-21

578.256

111

0.325341

3.64634

3.63415

gemini-1.5-pro

2025-02-21

563.298

100

0.329829

3.48171

4.07317

gemini-1.5-flash

2025-02-21

772.702

0

0.264112

0.780488

1.2561

Total Svar Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.

Beståede tests: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

Gennemsnitlig CodeBLEU: Gennemsnitlig CodeBLEU score, en metrisk til evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

Gennemsnitlig Nyttighed Score: Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM model.

  • 0: Snippet er slet ikke nyttigt, det er irrelevant for problemet.

  • 1: Snippet er lidt nyttigt, det indeholder information relevant for problemet, men det er lettere at skrive løsningen fra bunden.

  • 2: Snippet er nogenlunde nyttigt, det kræver betydelige ændringer (sammenlignet med størrelsen af snippetet), men er stadig nyttigt.

  • 3: Snippet er nyttigt, men skal ændres lidt for at løse problemet.

  • 4: Snippet er meget nyttigt, det løser problemet.

Gennemsnitlig Funktionel Korrekthed Score: Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM model.

  • 0 (består ikke alle mulige tests): Kode snippetet er helt forkert og meningsløst.

  • 4 (består alle mulige tests): Kode snippetet er helt korrekt og kan håndtere alle tilfælde.

Last updated