SkyDeck.ai Docs
google.com
Dansk
Dansk
  • SkyDeck.ai
  • GenStudio Workspace
    • Samtaler
    • SkyDeck AI Hjælpeapp
    • Dokumentupload
    • Deling og Samarbejde
    • Slack Synkronisering
    • Offentlige Snapshots
    • Web Browsing
    • Værktøjer
      • Pair Programmer
        • Sådan Bruges
        • Eksempel – Python Script Assistance
      • SQL Assistent
        • Sådan Bruges
        • Eksempel – Spørgsmål Fejlfinding
      • Gennemgang af Juridisk Aftale
        • Sådan Bruges
        • Eksempel – NDA Klausul
      • Lær Mig Alt
        • Sådan Bruges
        • Eksempel – Introduktion til Programmering
      • Strategikonsulent
        • Sådan Bruges
        • Eksempel – Medarbejderfastholdelse
      • Billedgenerator
        • Sådan Bruges
        • Eksempel – Vinterland
    • Datasikkerhed
      • Forebyggelse af Datatab
  • Kontrolcenter
    • Admin & Ejer Værktøjer
    • Opsætningsguide
      • Opsæt Konto
      • Opsæt Integrationer
        • Integrationsassistance
      • Opsæt Sikkerhed
        • Godkendelse (SSO)
      • Organiser Teams
        • Tilføj Ny Gruppe
        • Fjern Grupper
      • Kurater Værktøjer
        • Systemværktøjer
        • Tildel Tags
      • Administrer Medlemmer
        • Tilføj Medlemmer
        • Importer Fil
        • Inviter Medlemmer
        • Rediger Medlemmer
    • Fakturering
      • Gratis Prøveperiode
      • Køb Kredit
      • Planer og Opgraderinger
      • Modelbrugspriser
  • Integrationer
    • LLMs og Databaser
      • Anthropic Integration
      • Databaseintegration
      • Groq Integration
      • HuggingFace Integration
      • Mistral Integration
      • OpenAI Integration
      • Perplexity Integration
      • Together AI Integration
      • Vertex AI Integration
    • App Integrationer
      • Rememberizer Integration
      • Slack Integration
  • Udviklere
    • Udvikl Dine Egen Værktøjer
      • JSON format til Værktøjer
      • JSON Format til LLM Værktøjer
      • Eksempel: Tekstbaseret UI Generator
      • JSON Format til Smarte Værktøjer
  • Brugssager
    • Oprettelse af en Privatlivspolitik
  • Meddelelser
    • Brugsbetingelser
    • Privatlivspolitik
    • Cookie Meddelelse
  • Udgivelser
    • 30. maj 2025
    • 23. maj 2025
    • 16. maj 2025
    • 9. maj 2025
    • 2. maj 2025
    • 25. apr 2025
    • 18. apr 2025
    • 11. apr 2025
    • 4. apr 2025
    • 28. mar 2025
    • 21. mar 2025
    • 14. mar 2025
    • 7. mar 2025
    • 28. feb 2025
    • 21. feb 2025
    • 14. feb 2025
    • 7. feb 2025
    • 31. jan 2025
    • 24. jan 2025
    • 17. jan 2025
    • 10. jan 2025
    • 3. jan 2025
    • 27. dec 2024
    • 20. dec 2024
    • 13. dec 2024
    • 6. dec 2024
    • 29. nov 2024
    • 22. nov 2024
    • 15. nov 2024
    • 8. nov 2024
    • 1. nov 2024
    • 25. okt 2024
    • 18. okt 2024
    • 11. okt 2024
    • 4. okt 2024
    • 27. sep 2024
    • 20. sep 2024
    • 13. sep 2024
    • 6. sep 2024
    • 23. aug 2024
    • 16. aug 2024
    • 9. aug 2024
    • 2. aug 2024
    • 26. jul 2024
    • 12. jul 2024
    • 5. jul 2024
    • 28. jun 2024
    • 21. jun 2024
    • 12. nov 2023
    • 6. nov 2023
    • 30. okt 2023
    • 23. okt 2023
    • 16. okt 2023
    • 18. sep 2023
    • 8. sep 2023
  • Sikkerhed
    • SkyDeck.ai Sikkerhedspraksis
    • Bug Bounty Program
  • AI Dokumentation
    • LLM Evaluering Rapport
    • SkyDeck.ai LLM Klar Dokumentation
Powered by GitBook
On this page
  1. AI Dokumentation

LLM Evaluering Rapport

Last updated 3 days ago

Model
Dato
Total Respons Tid (s)
Tests Bestået
Gennemsnitlig CodeBLEU (0-1)
Gennemsnitlig Nyttighed Score (0-4)
Gennemsnitlig Funktionel Korrekthed Score (0-4)

claude-opus-4-20250514

2025-05-27

682.341

45

0.373498

3.68902

3.71951

claude-sonnet-4-20250514

2025-05-27

685.546

112

0.317174

3.7378

3.65854

claude-3-7-sonnet-20250219

2025-05-27

746.497

108

0.319258

3.65244

3.65244

claude-3-5-sonnet-20241022

2025-05-27

445.549

114

0.332094

3.65244

3.72561

gpt-4.1

2025-05-27

340.45

114

0.345565

3.71951

3.79878

o4-mini

2025-05-27

1380.26

128

0.322408

3.70122

3.7439

o3

2025-05-27

1592.45

141

0.314449

3.71341

3.85366

gpt-4o

2025-05-27

254.478

123

0.305002

3.70732

3.7378

gemini_gemini-2.0-flash

2025-05-27

428.324

102

0.304022

3.65244

3.60976

gemini_gemini-2.5-pro-preview-05-06

2025-05-27

1317.42

71

0.319577

2.45732

2.67683

gemini_gemini-2.5-flash-preview-05-20

2025-05-27

1042.03

108

0.32728

3.39024

3.46341

Total Respons Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.

Tests bestået: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

Gennemsnitlig : Gennemsnitlig CodeBLEU score, en metrisk for evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

Gennemsnitlig : Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.

  • 0: Snippet er slet ikke hjælpsomt, det er irrelevant for problemet.

  • 1: Snippet er lidt hjælpsomt, det indeholder information, der er relevant for problemet, men det er lettere at skrive løsningen fra bunden.

  • 2: Snippet er nogenlunde hjælpsomt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.

  • 3: Snippet er hjælpsomt, men skal ændres lidt for at løse problemet.

  • 4: Snippet er meget hjælpsomt, det løser problemet.

  • 0 (består ikke alle mulige tests): Kode snippetet er helt forkert og meningsløst.

  • 4 (består alle mulige tests): Kode snippetet er helt korrekt og kan håndtere alle tilfælde.

Gennemsnitlig : Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.

CodeBLEU
Nyttighed Score
Funktionel Korrekthed Score