SkyDeck.ai Docs
google.com
Dansk
Dansk
  • SkyDeck.ai
  • GenStudio Workspace
    • Samtaler
    • SkyDeck AI Hjælpeapp
    • Dokumentupload
    • Deling og Samarbejde
    • Slack Synkronisering
    • Offentlige Snapshot
    • Web Browsing
    • Værktøjer
      • Pair Programmer
        • Sådan bruges
        • Eksempel – Python Script Assistance
      • SQL Assistent
        • Sådan bruges
        • Eksempel – Spørgsmål Fejlfinding
      • Gennemgang af Juridisk Aftale
        • Sådan bruges
        • Eksempel – NDA Klausul
      • Lær Mig Alt
        • Sådan bruges
        • Eksempel – Introduktion til Programmering
      • Strategikonsulent
        • Sådan bruges
        • Eksempel – Medarbejderfastholdelse
      • Billedgenerator
        • Sådan bruges
        • Eksempel – Vinterland
    • Datasikkerhed
      • Forebyggelse af Datatab
  • Kontrolcenter
    • Admin & Ejer Værktøjer
    • Opsætningsguide
      • Opret Konto
      • Opret Integrationer
        • Integrationshjælp
      • Opret Sikkerhed
        • Godkendelse (SSO)
      • Organiser Teams
        • Tilføj Ny Gruppe
        • Fjern Grupper
      • Kurater Værktøjer
        • Systemværktøjer
        • Tildel Tags
      • Administrer Medlemmer
        • Tilføj Medlemmer
        • Importer Fil
        • Inviter Medlemmer
        • Rediger Medlemmer
    • Fakturering
      • Gratis Prøveperiode
      • Køb Kredit
      • Planer og Opgraderinger
      • Modelbrugspriser
  • Integrationer
    • LLMs og Databaser
      • Anthropic Integration
      • Database Integration
      • Groq Integration
      • HuggingFace Integration
      • Mistral Integration
      • OpenAI Integration
      • Perplexity Integration
      • Together AI Integration
      • Vertex AI Integration
    • App Integrationer
      • Rememberizer Integration
      • Slack Integration
  • Udviklere
    • Udvikl Dine Egen Værktøjer
      • JSON format for Værktøjer
      • JSON Format for LLM Værktøjer
      • Eksempel: Tekstbaseret UI Generator
      • JSON Format for Smarte Værktøjer
  • Brugssager
    • Oprettelse af en Privatlivspolitik
  • Meddelelser
    • Brugsbetingelser
    • Privatlivspolitik
    • Cookie Meddelelse
  • Udgivelser
    • 9. maj 2025
    • 2. maj 2025
    • 25. apr 2025
    • 18. apr 2025
    • 11. apr 2025
    • 4. apr 2025
    • 28. mar 2025
    • 21. mar 2025
    • 14. mar 2025
    • 7. mar 2025
    • 28. feb 2025
    • 21. feb 2025
    • 14. feb 2025
    • 7. feb 2025
    • 31. jan 2025
    • 24. jan 2025
    • 17. jan 2025
    • 10. jan 2025
    • 3. jan 2025
    • 27. dec 2024
    • 20. dec 2024
    • 13. dec 2024
    • 6. dec 2024
    • 29. nov 2024
    • 22. nov 2024
    • 15. nov 2024
    • 8. nov 2024
    • 1. nov 2024
    • 25. okt 2024
    • 18. okt 2024
    • 11. okt 2024
    • 4. okt 2024
    • 27. sep 2024
    • 20. sep 2024
    • 13. sep 2024
    • 6. sep 2024
    • 23. aug 2024
    • 16. aug 2024
    • 9. aug 2024
    • 2. aug 2024
    • 26. jul 2024
    • 12. jul 2024
    • 5. jul 2024
    • 28. jun 2024
    • 21. jun 2024
    • 12. nov 2023
    • 6. nov 2023
    • 30. okt 2023
    • 23. okt 2023
    • 16. okt 2023
    • 18. sep 2023
    • 8. sep 2023
  • Sikkerhed
    • SkyDeck.ai Sikkerhedspraksis
    • Bug Bounty Program
  • AI Dokumentation
    • LLM Evaluering Rapport
    • SkyDeck.ai LLM Klar Dokumentation
Powered by GitBook
On this page
  1. AI Dokumentation

LLM Evaluering Rapport

Last updated 10 days ago

Model
Dato
Total Respons Tid (s)
Tests Bestået
Gennemsnitlig CodeBLEU (0-1)
Gennemsnitlig Nyttighed Score (0-4)
Gennemsnitlig Funktionel Korrekthed Score (0-4)

o1-preview

2025-04-02

3264.19

134

0.320351

3.60976

3.59756

o1-mini

2025-04-02

964.977

129

0.336816

3.69512

3.75

gpt-4o

2025-04-02

228.668

128

0.310692

3.71951

3.67073

gpt-4o-mini

2025-04-02

248.679

116

0.321981

3.62805

3.61585

claude-3-5-sonnet-20240620

2025-04-02

276.394

108

0.30484

3.67683

3.66463

claude-3-5-sonnet-20241022

2025-04-02

291.706

112

0.328969

3.68902

3.70732

gemini-1.5-pro

2025-04-02

518.354

103

0.327295

3.46951

3.41463

gemini-1.5-flash

2025-04-02

763.949

0

0.261228

0.792683

1.32317

Total Respons Tid (s): Den samlede tid, som modellen har brugt på at generere alle output.

Tests bestået: Antallet af enhedstests, som modellen har bestået under evalueringen, ud af i alt 164 tests.

Gennemsnitlig : Gennemsnitlig CodeBLEU score, en metrisk for evaluering af kvaliteten af kodegenerering baseret på både syntaktisk og semantisk korrekthed.

Gennemsnitlig : Gennemsnitlig vurdering af modellens output nyttighed som vurderet af en LLM-model.

  • 0: Snippet er slet ikke hjælpsomt, det er irrelevant for problemet.

  • 1: Snippet er lidt hjælpsomt, det indeholder information relevant for problemet, men det er lettere at skrive løsningen fra bunden.

  • 2: Snippet er nogenlunde hjælpsomt, det kræver betydelige ændringer (sammenlignet med størrelsen på snippetet), men er stadig nyttigt.

  • 3: Snippet er hjælpsomt, men skal ændres lidt for at løse problemet.

  • 4: Snippet er meget hjælpsomt, det løser problemet.

Gennemsnitlig : Gennemsnitlig score for den funktionelle korrekthed af modellens output, der vurderer, hvor godt output opfylder de funktionelle krav, vurderet af en LLM-model.

  • 0 (består ikke alle mulige tests): Kode-snippet er helt forkert og meningsløst.

  • 4 (består alle mulige tests): Kode-snippet er helt korrekt og kan håndtere alle tilfælde.

CodeBLEU
Nyttighed Score
Funktionel Korrekthed Score