SkyDeck.ai Docs
S'inscrireConnexion AdminContactez-nous
Français
Français
  • SkyDeck.ai
  • GenStudio Workspace
    • Conversations
    • Application d'Aide SkyDeck AI
    • Téléchargement de Documents
    • Partage et Collaboration
    • Synchronisation Slack
    • Instantanés Publics
    • Navigation Web
    • Outils
      • Programmeur de Pair
        • Comment Utiliser
        • Exemple – Assistance Script Python
      • Assistant SQL
        • Comment Utiliser
        • Exemple – Débogage de Requête
      • Révision d'Accord Légal
        • Comment Utiliser
        • Exemple – Clause NDA
      • Apprends-moi Tout
        • Comment Utiliser
        • Exemple – Introduction à la Programmation
      • Consultant en Stratégie
        • Comment Utiliser
        • Exemple – Rétention des Employés
      • Générateur d'Images
        • Comment Utiliser
        • Exemple – Paysage d'Hiver
    • Sécurité des Données
      • Prévention de Perte de Données
  • Centre de Contrôle
    • Outils Admin & Propriétaire
    • Guide de Configuration
      • Configurer un Compte
      • Configurer des Intégrations
        • Assistance à l'Intégration
      • Configurer la Sécurité
        • Authentification (SSO)
      • Organiser des Équipes
        • Ajouter un Nouveau Groupe
        • Supprimer des Groupes
      • Curater des Outils
        • Outils Système
        • Attribuer des Étiquettes
      • Gérer les Membres
        • Ajouter des Membres
        • Importer un Fichier
        • Inviter des Membres
        • Modifier des Membres
    • Facturation
      • Essai Gratuit
      • Acheter des Crédits
      • Plans et Améliorations
      • Prix d'Utilisation des Modèles
  • Intégrations
    • LLMs et Bases de Données
      • Intégration Anthropic
      • Intégration de Base de Données
      • Intégration Groq
      • Intégration HuggingFace
      • Intégration Mistral
      • Intégration OpenAI
      • Intégration Perplexity
      • Intégration Together AI
      • Intégration Vertex AI
    • Intégrations d'Applications
      • Intégration Rememberizer
      • Intégration Slack
  • Développeurs
    • Développez Vos Propres Outils
      • Format JSON pour Outils
      • Format JSON pour Outils LLM
      • Exemple : Générateur d'UI Basé sur du Texte
      • Format JSON pour Outils Intelligents
  • Cas d'Utilisation
    • Créer une Politique de Confidentialité
  • Avis
    • Conditions d'Utilisation
    • Politique de Confidentialité
    • Avis sur les Cookies
  • Versions
    • 16 mai 2025
    • 9 mai 2025
    • 2 mai 2025
    • 25 avril 2025
    • 18 avril 2025
    • 11 avril 2025
    • 4 avril 2025
    • 28 mars 2025
    • 21 mars 2025
    • 14 mars 2025
    • 7 mars 2025
    • 28 février 2025
    • 21 février 2025
    • 14 février 2025
    • 7 février 2025
    • 31 janvier 2025
    • 24 janvier 2025
    • 17 janvier 2025
    • 10 janvier 2025
    • 3 janvier 2025
    • 27 décembre 2024
    • 20 décembre 2024
    • 13 décembre 2024
    • 6 décembre 2024
    • 29 novembre 2024
    • 22 novembre 2024
    • 15 novembre 2024
    • 8 novembre 2024
    • 1 novembre 2024
    • 25 octobre 2024
    • 18 octobre 2024
    • 11 octobre 2024
    • 4 octobre 2024
    • 27 septembre 2024
    • 20 septembre 2024
    • 13 septembre 2024
    • 6 septembre 2024
    • 23 août 2024
    • 16 août 2024
    • 9 août 2024
    • 2 août 2024
    • 26 juillet 2024
    • 12 juillet 2024
    • 5 juillet 2024
    • 28 juin 2024
    • 21 juin 2024
    • 12 novembre 2023
    • 6 novembre 2023
    • 30 octobre 2023
    • 23 octobre 2023
    • 16 octobre 2023
    • 18 septembre 2023
    • 8 septembre 2023
  • Sécurité
    • Pratiques de Sécurité SkyDeck.ai
    • Programme de Récompense de Bugs
  • Documentation AI
    • Rapport d'Évaluation LLM
    • Documentation Prête pour LLM SkyDeck.ai
Propulsé par GitBook
Sur cette page
  1. Documentation AI

Rapport d'Évaluation LLM

PrécédentDocumentation AISuivantDocumentation Prête pour LLM SkyDeck.ai

Dernière mise à jour il y a 19 jours

Modèle
Date
Temps total de réponse (s)
Tests réussis
CodeBLEU moyen (0-1)
Score d'utilité moyen (0-4)
Score de correction fonctionnelle moyen (0-4)

o1-preview

2025-04-02

3264.19

134

0.320351

3.60976

3.59756

o1-mini

2025-04-02

964.977

129

0.336816

3.69512

3.75

gpt-4o

2025-04-02

228.668

128

0.310692

3.71951

3.67073

gpt-4o-mini

2025-04-02

248.679

116

0.321981

3.62805

3.61585

claude-3-5-sonnet-20240620

2025-04-02

276.394

108

0.30484

3.67683

3.66463

claude-3-5-sonnet-20241022

2025-04-02

291.706

112

0.328969

3.68902

3.70732

gemini-1.5-pro

2025-04-02

518.354

103

0.327295

3.46951

3.41463

gemini-1.5-flash

2025-04-02

763.949

0

0.261228

0.792683

1.32317

Temps total de réponse (s) : Le temps total pris par le modèle pour générer toutes les sorties.

Tests réussis : Le nombre de tests unitaires que le modèle a réussis lors de l'évaluation, sur un total de 164 tests.

CodeBLEU moyen : Score CodeBLEU moyen, une métrique pour évaluer la qualité de génération de code basée à la fois sur la correction syntaxique et sémantique.

Score d'utilité moyen : Évaluation moyenne de l'utilité des sorties du modèle, notée par un modèle LLM.

  • 0 : L'extrait n'est pas du tout utile, il est hors sujet par rapport au problème.

  • 1 : L'extrait est légèrement utile, il contient des informations pertinentes pour le problème, mais il est plus facile d'écrire la solution à partir de zéro.

  • 2 : L'extrait est quelque peu utile, il nécessite des modifications significatives (par rapport à la taille de l'extrait), mais reste utile.

  • 3 : L'extrait est utile, mais doit être légèrement modifié pour résoudre le problème.

  • 4 : L'extrait est très utile, il résout le problème.

Score de correction fonctionnelle moyen : Score moyen de la correction fonctionnelle des sorties du modèle, évaluant dans quelle mesure les sorties répondent aux exigences fonctionnelles, notées par un modèle LLM.

  • 0 (échouant tous les tests possibles) : L'extrait de code est totalement incorrect et dénué de sens.

  • 4 (réussissant tous les tests possibles) : L'extrait de code est totalement correct et peut gérer tous les cas.

CodeBLEU
Usefulness Score
Functional Correctness Score