SkyDeck.ai Docs
Inscreva-seLogin de administradorContate-nos
Português
Português
  • SkyDeck.ai
  • GenStudio Workspace
    • Conversas
    • Aplicativo de Ajuda SkyDeck AI
    • Upload de Documentos
    • Compartilhamento e Colaboração
    • Sincronização com Slack
    • Instantâneas Públicas
    • Navegação na Web
    • Ferramentas
      • Programador em Par
        • Como Usar
        • Exemplo – Assistência com Script Python
      • Assistente SQL
        • Como Usar
        • Exemplo – Depuração de Consulta
      • Revisão de Acordo Legal
        • Como Usar
        • Exemplo – Cláusula de NDA
      • Ensine-me Qualquer Coisa
        • Como Usar
        • Exemplo – Introdução à Programação
      • Consultor de Estratégia
        • Como Usar
        • Exemplo – Retenção de Funcionários
      • Gerador de Imagens
        • Como Usar
        • Exemplo – País das Maravilhas de Inverno
    • Segurança de Dados
      • Prevenção de Perda de Dados
  • Centro de Controle
    • Ferramentas de Admin e Proprietário
    • Guia de Configuração
      • Configurar Conta
      • Configurar Integrações
        • Assistência de Integração
      • Configurar Segurança
        • Autenticação (SSO)
      • Organizar Equipes
        • Adicionar Novo Grupo
        • Remover Grupos
      • Curar Ferramentas
        • Ferramentas do Sistema
        • Atribuir Tags
      • Gerenciar Membros
        • Adicionar Membros
        • Importar Arquivo
        • Convidar Membros
        • Editar Membros
    • Cobrança
      • Teste Gratuito
      • Comprar Crédito
      • Planos e Atualizações
      • Preços de Uso de Modelos
  • Integrações
    • LLMs e Bancos de Dados
      • Integração com Anthropic
      • Integração com Banco de Dados
      • Integração com Groq
      • Integração com HuggingFace
      • Integração com Mistral
      • Integração com OpenAI
      • Integração com Perplexity
      • Integração com Together AI
      • Integração com Vertex AI
    • Integrações de Aplicativos
      • Integração com Rememberizer
      • Integração com Slack
  • Desenvolvedores
    • Desenvolva Suas Próprias Ferramentas
      • Formato JSON para Ferramentas
      • Formato JSON para Ferramentas LLM
      • Exemplo: Gerador de UI Baseado em Texto
      • Formato JSON para Ferramentas Inteligentes
  • Casos de Uso
    • Criando uma Política de Privacidade
  • Avisos
    • Termos de Uso
    • Política de Privacidade
    • Aviso de Cookies
  • Lançamentos
    • 30 de Maio de 2025
    • 23 de Maio de 2025
    • 16 de Maio de 2025
    • 9 de Maio de 2025
    • 2 de Maio de 2025
    • 25 de Abril de 2025
    • 18 de Abril de 2025
    • 11 de Abril de 2025
    • 4 de Abril de 2025
    • 28 de Março de 2025
    • 21 de Março de 2025
    • 14 de Março de 2025
    • 7 de Março de 2025
    • 28 de Fevereiro de 2025
    • 21 de Fevereiro de 2025
    • 14 de Fevereiro de 2025
    • 7 de Fevereiro de 2025
    • 31 de Janeiro de 2025
    • 24 de Janeiro de 2025
    • 17 de Janeiro de 2025
    • 10 de Janeiro de 2025
    • 3 de Janeiro de 2025
    • 27 de Dezembro de 2024
    • 20 de Dezembro de 2024
    • 13 de Dezembro de 2024
    • 6 de Dezembro de 2024
    • 29 de Novembro de 2024
    • 22 de Novembro de 2024
    • 15 de Novembro de 2024
    • 8 de Novembro de 2024
    • 1 de Novembro de 2024
    • 25 de Outubro de 2024
    • 18 de Outubro de 2024
    • 11 de Outubro de 2024
    • 4 de Outubro de 2024
    • 27 de Setembro de 2024
    • 20 de Setembro de 2024
    • 13 de Setembro de 2024
    • 6 de Setembro de 2024
    • 23 de Agosto de 2024
    • 16 de Agosto de 2024
    • 9 de Agosto de 2024
    • 2 de Agosto de 2024
    • 26 de Julho de 2024
    • 12 de Julho de 2024
    • 5 de Julho de 2024
    • 28 de Junho de 2024
    • 21 de Junho de 2024
    • 12 de Novembro de 2023
    • 6 de Novembro de 2023
    • 30 de Outubro de 2023
    • 23 de Outubro de 2023
    • 16 de Outubro de 2023
    • 18 de Setembro de 2023
    • 8 de Setembro de 2023
  • Segurança
    • Práticas de Segurança do SkyDeck.ai
    • Programa de Recompensa por Bugs
  • Documentação de IA
    • Relatório de Avaliação de LLM
    • Documentação Pronta para LLM do SkyDeck.ai
Powered by GitBook
On this page
  1. Documentação de IA

Relatório de Avaliação de LLM

PreviousDocumentação de IANextDocumentação Pronta para LLM do SkyDeck.ai

Last updated 3 days ago

Modelo
Data
Tempo Total de Resposta (s)
Testes Aprovados
Média CodeBLEU (0-1)
Média de Pontuação de Utilidade (0-4)
Média de Pontuação de Correção Funcional (0-4)

claude-opus-4-20250514

2025-05-27

682.341

45

0.373498

3.68902

3.71951

claude-sonnet-4-20250514

2025-05-27

685.546

112

0.317174

3.7378

3.65854

claude-3-7-sonnet-20250219

2025-05-27

746.497

108

0.319258

3.65244

3.65244

claude-3-5-sonnet-20241022

2025-05-27

445.549

114

0.332094

3.65244

3.72561

gpt-4.1

2025-05-27

340.45

114

0.345565

3.71951

3.79878

o4-mini

2025-05-27

1380.26

128

0.322408

3.70122

3.7439

o3

2025-05-27

1592.45

141

0.314449

3.71341

3.85366

gpt-4o

2025-05-27

254.478

123

0.305002

3.70732

3.7378

gemini_gemini-2.0-flash

2025-05-27

428.324

102

0.304022

3.65244

3.60976

gemini_gemini-2.5-pro-preview-05-06

2025-05-27

1317.42

71

0.319577

2.45732

2.67683

gemini_gemini-2.5-flash-preview-05-20

2025-05-27

1042.03

108

0.32728

3.39024

3.46341

Tempo Total de Resposta (s): O tempo total levado pelo modelo para gerar todas as saídas.

Testes aprovados: O número de testes unitários que o modelo passou durante a avaliação, de um total de 164 testes.

Média : Pontuação média do CodeBLEU, uma métrica para avaliar a qualidade da geração de código com base na correção sintática e semântica.

Média : Avaliação média da utilidade da saída do modelo, conforme avaliado por um modelo LLM.

  • 0: O trecho não é útil de forma alguma, é irrelevante para o problema.

  • 1: O trecho é ligeiramente útil, contém informações relevantes para o problema, mas é mais fácil escrever a solução do zero.

  • 2: O trecho é um pouco útil, requer mudanças significativas (comparado ao tamanho do trecho), mas ainda é útil.

  • 3: O trecho é útil, mas precisa ser ligeiramente alterado para resolver o problema.

  • 4: O trecho é muito útil, resolve o problema.

  • 0 (falhando todos os testes possíveis): O trecho de código é totalmente incorreto e sem sentido.

  • 4 (passando todos os testes possíveis): O trecho de código é totalmente correto e pode lidar com todos os casos.

Média : Pontuação média da correção funcional das saídas do modelo, avaliando quão bem as saídas atendem aos requisitos funcionais, avaliadas por um modelo LLM.

CodeBLEU
Pontuação de Utilidade
Pontuação de Correção Funcional