SkyDeck.ai Docs
RegístrateInicio de sesión de administradorContáctenos
Español
Español
  • SkyDeck.ai
  • GenStudio Workspace
    • Conversaciones
    • Aplicación Ayudante de SkyDeck AI
    • Carga de Documentos
    • Compartir y Colaborar
    • Sincronización con Slack
    • Instantáneas Públicas
    • Navegación Web
    • Herramientas
      • Programador en Pareja
        • Cómo Usar
        • Ejemplo – Asistencia con Script de Python
      • Asistente SQL
        • Cómo Usar
        • Ejemplo – Depuración de Consultas
      • Revisión de Acuerdos Legales
        • Cómo Usar
        • Ejemplo – Cláusula de NDA
      • Enséñame Cualquier Cosa
        • Cómo Usar
        • Ejemplo – Introducción a la Programación
      • Consultor Estratégico
        • Cómo Usar
        • Ejemplo – Retención de Empleados
      • Generador de Imágenes
        • Cómo Usar
        • Ejemplo – Maravilla Invernal
    • Seguridad de Datos
      • Prevención de Pérdida de Datos
  • Centro de Control
    • Herramientas para Administradores y Propietarios
    • Guía de Configuración
      • Configurar Cuenta
      • Configurar Integraciones
        • Asistencia para Integración
      • Configurar Seguridad
        • Autenticación (SSO)
      • Organizar Equipos
        • Agregar Nuevo Grupo
        • Eliminar Grupos
      • Curar Herramientas
        • Herramientas del Sistema
        • Asignar Etiquetas
      • Gestionar Miembros
        • Agregar Miembros
        • Importar Archivo
        • Invitar Miembros
        • Editar Miembros
    • Facturación
      • Prueba Gratuita
      • Comprar Crédito
      • Planes y Mejoras
      • Precios de Uso de Modelos
  • Integraciones
    • LLMs y Bases de Datos
      • Integración de Anthropic
      • Integración de Base de Datos
      • Integración de Groq
      • Integración de HuggingFace
      • Integración de Mistral
      • Integración de OpenAI
      • Integración de Perplexity
      • Integración de Together AI
      • Integración de Vertex AI
    • Integraciones de Aplicaciones
      • Integración de Rememberizer
      • Integración de Slack
  • Desarrolladores
    • Desarrolla Tus Propias Herramientas
      • Formato JSON para Herramientas
      • Formato JSON para Herramientas LLM
      • Ejemplo: Generador de UI Basado en Texto
      • Formato JSON para Herramientas Inteligentes
  • Casos de Uso
    • Creando una Política de Privacidad
  • Avisos
    • Términos de Uso
    • Política de Privacidad
    • Aviso de Cookies
  • Lanzamientos
    • 23 de Mayo de 2025
    • 16 de Mayo de 2025
    • 9 de Mayo de 2025
    • 2 de Mayo de 2025
    • 25 de Abr de 2025
    • 18 de Abr de 2025
    • 11 de Abr de 2025
    • 4 de Abr de 2025
    • 28 de Mar de 2025
    • 21 de Mar de 2025
    • 14 de Mar de 2025
    • 7 de Mar de 2025
    • 28 de Feb de 2025
    • 21 de Feb de 2025
    • 14 de Feb de 2025
    • 7 de Feb de 2025
    • 31 de Ene de 2025
    • 24 de Ene de 2025
    • 17 de Ene de 2025
    • 10 de Ene de 2025
    • 3 de Ene de 2025
    • 27 de Dic de 2024
    • 20 de Dic de 2024
    • 13 de Dic de 2024
    • 6 de Dic de 2024
    • 29 de Nov de 2024
    • 22 de Nov de 2024
    • 15 de Nov de 2024
    • 8 de Nov de 2024
    • 1 de Nov de 2024
    • 25 de Oct de 2024
    • 18 de Oct de 2024
    • 11 de Oct de 2024
    • 4 de Oct de 2024
    • 27 de Sep de 2024
    • 20 de Sep de 2024
    • 13 de Sep de 2024
    • 6 de Sep de 2024
    • 23 de Ago de 2024
    • 16 de Ago de 2024
    • 9 de Ago de 2024
    • 2 de Ago de 2024
    • 26 de Jul de 2024
    • 12 de Jul de 2024
    • 5 de Jul de 2024
    • 28 de Jun de 2024
    • 21 de Jun de 2024
    • 12 de Nov 2023
    • 6 de Nov 2023
    • 30 de Oct 2023
    • 23 de Oct 2023
    • 16 de Oct 2023
    • 18 de Sep 2023
    • 8 de Sep 2023
  • Seguridad
    • Prácticas de Seguridad de SkyDeck.ai
    • Programa de Recompensas por Errores
  • Documentación de IA
    • Informe de Evaluación de LLM
    • Documentación Lista para LLM de SkyDeck.ai
Con tecnología de GitBook
En esta página
  1. Documentación de IA

Informe de Evaluación de LLM

AnteriorDocumentación de IASiguienteDocumentación Lista para LLM de SkyDeck.ai

Última actualización hace 25 días

Modelo
Fecha
Tiempo Total de Respuesta (s)
Pruebas Aprobadas
Media CodeBLEU (0-1)
Media de Puntuación de Utilidad (0-4)
Media de Puntuación de Corrección Funcional (0-4)

o1-preview

2025-04-02

3264.19

134

0.320351

3.60976

3.59756

o1-mini

2025-04-02

964.977

129

0.336816

3.69512

3.75

gpt-4o

2025-04-02

228.668

128

0.310692

3.71951

3.67073

gpt-4o-mini

2025-04-02

248.679

116

0.321981

3.62805

3.61585

claude-3-5-sonnet-20240620

2025-04-02

276.394

108

0.30484

3.67683

3.66463

claude-3-5-sonnet-20241022

2025-04-02

291.706

112

0.328969

3.68902

3.70732

gemini-1.5-pro

2025-04-02

518.354

103

0.327295

3.46951

3.41463

gemini-1.5-flash

2025-04-02

763.949

0

0.261228

0.792683

1.32317

Tiempo Total de Respuesta (s): El tiempo total que tomó el modelo para generar todas las salidas.

Pruebas aprobadas: El número de pruebas unitarias que el modelo ha aprobado durante la evaluación, de un total de 164 pruebas.

Media : Puntuación promedio de CodeBLEU, una métrica para evaluar la calidad de generación de código basada en la corrección sintáctica y semántica.

Media : Calificación promedio de la utilidad de la salida del modelo según lo evaluado por un modelo LLM.

  • 0: El fragmento no es útil en absoluto, es irrelevante para el problema.

  • 1: El fragmento es ligeramente útil, contiene información relevante para el problema, pero es más fácil escribir la solución desde cero.

  • 2: El fragmento es algo útil, requiere cambios significativos (en comparación con el tamaño del fragmento), pero sigue siendo útil.

  • 3: El fragmento es útil, pero necesita ser ligeramente modificado para resolver el problema.

  • 4: El fragmento es muy útil, resuelve el problema.

Media : Puntuación promedio de la corrección funcional de las salidas del modelo, evaluando qué tan bien las salidas cumplen con los requisitos funcionales, evaluadas por un modelo LLM.

  • 0 (fallando todas las pruebas posibles): El fragmento de código es totalmente incorrecto y sin sentido.

  • 4 (aprobando todas las pruebas posibles): El fragmento de código es totalmente correcto y puede manejar todos los casos.

CodeBLEU
Puntuación de Utilidad
Puntuación de Corrección Funcional