Informe de Evaluación de LLM
o1-preview
2025-01-30
2739.79
131
0.309345
3.66463
3.62195
o1-mini
2025-01-30
929.086
130
0.339031
3.79268
3.7561
gpt-4o
2025-01-30
324.223
121
0.312351
3.71951
3.7378
gpt-4o-mini
2025-01-30
348.25
120
0.334448
3.65244
3.69512
claude-3-5-sonnet-20240620
2025-01-30
281.125
114
0.306178
3.68293
3.65244
claude-3-5-sonnet-20241022
2025-01-30
298.698
113
0.320084
3.68902
3.70732
gemini-1.5-pro
2025-01-30
669.482
101
0.340269
3.52439
3.46951
gemini-1.5-flash
2025-01-30
768.339
1
0.26343
0.72561
0.835366
Tiempo Total de Respuesta (s): El tiempo total que tomó el modelo para generar todas las salidas.
Pruebas aprobadas: El número de pruebas unitarias que el modelo ha aprobado durante la evaluación, de un total de 164 pruebas.
Media CodeBLEU: Puntuación promedio de CodeBLEU, una métrica para evaluar la calidad de la generación de código basada en la corrección sintáctica y semántica.
Media Puntuación de Utilidad: Calificación promedio de la utilidad de la salida del modelo según lo evaluado por un modelo LLM.
0: El fragmento no es útil en absoluto, es irrelevante para el problema.
1: El fragmento es ligeramente útil, contiene información relevante para el problema, pero es más fácil escribir la solución desde cero.
2: El fragmento es algo útil, requiere cambios significativos (en comparación con el tamaño del fragmento), pero sigue siendo útil.
3: El fragmento es útil, pero necesita ser ligeramente modificado para resolver el problema.
4: El fragmento es muy útil, resuelve el problema.
Media Puntuación de Corrección Funcional: Puntuación promedio de la corrección funcional de las salidas del modelo, evaluando qué tan bien las salidas cumplen con los requisitos funcionales, evaluadas por un modelo LLM.
0 (fallando todas las pruebas posibles): El fragmento de código es totalmente incorrecto y sin sentido.
4 (aprobando todas las pruebas posibles): El fragmento de código es totalmente correcto y puede manejar todos los casos.
Última actualización