# Relatório de Avaliação de LLM

| Modelo                        | Data       | Tempo Total de Resposta (s) | Testes Aprovados | Média CodeBLEU (0-1) | Média de Pontuação de Utilidade (0-4) | Média de Pontuação de Correção Funcional (0-4) |
| ----------------------------- | ---------- | --------------------------: | ---------------: | -------------------: | ------------------------------------: | ---------------------------------------------: |
| gpt-5.4                       | 2026-03-18 |                     371.302 |              151 |              0.30016 |                               3.85976 |                                        3.88415 |
| gpt-5                         | 2026-03-18 |                     3307.15 |              160 |             0.312013 |                               3.71951 |                                        3.82927 |
| gpt-5-mini                    | 2026-03-18 |                     2223.12 |              161 |             0.305418 |                               3.79268 |                                        3.93293 |
| claude-opus-4-6               | 2026-03-18 |                     630.643 |              164 |              0.38829 |                               3.87195 |                                        3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                      604.89 |              161 |             0.379059 |                               3.85366 |                                        3.90854 |
| claude-opus-4-1               | 2026-03-18 |                     635.166 |              157 |             0.349491 |                               3.85366 |                                        3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                      546.74 |              162 |             0.331766 |                               3.89024 |                                        3.95732 |
| claude-haiku-4-5              | 2026-03-18 |                     280.497 |              154 |             0.317284 |                               3.84756 |                                        3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |                     3339.78 |              162 |             0.395161 |                               3.73171 |                                        3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |                     176.493 |              148 |             0.370935 |                               3.77439 |                                        3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |                     2146.97 |              142 |             0.395257 |                               3.59146 |                                        3.60366 |
| gemini-2.5-pro                | 2026-03-18 |                     2788.94 |              118 |             0.373488 |                                3.2561 |                                        3.38415 |
| gemini-2.5-flash              | 2026-03-18 |                     952.543 |              148 |             0.338621 |                                3.7439 |                                        3.83537 |

**Tempo Total de Resposta (s):** O tempo total levado pelo modelo para gerar todas as saídas.

**Testes aprovados:** O número de testes unitários que o modelo passou durante a avaliação, de um total de 164 testes.

**Média** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** Pontuação média de CodeBLEU, uma métrica para avaliar a qualidade da geração de código com base na correção sintática e semântica.

**Média** [**Pontuação de Utilidade**](https://arxiv.org/abs/2304.14317)**:** Avaliação média da utilidade da saída do modelo, conforme avaliado por um modelo LLM.

* **0:** O trecho não é útil de forma alguma, é irrelevante para o problema.
* **1:** O trecho é ligeiramente útil, contém informações relevantes para o problema, mas é mais fácil escrever a solução do zero.
* **2:** O trecho é um pouco útil, requer mudanças significativas (comparado ao tamanho do trecho), mas ainda é útil.
* **3:** O trecho é útil, mas precisa ser ligeiramente alterado para resolver o problema.
* **4:** O trecho é muito útil, resolve o problema.

**Média** [**Pontuação de Correção Funcional**](https://arxiv.org/abs/2304.14317)**:** Pontuação média da correção funcional das saídas do modelo, avaliando quão bem as saídas atendem aos requisitos funcionais, avaliadas por um modelo LLM.

* **0 (falhando todos os testes possíveis):** O trecho de código é totalmente incorreto e sem sentido.
* **4 (passando todos os testes possíveis):** O trecho de código é totalmente correto e pode lidar com todos os casos.
