Informe de Evaluación de LLM
o1-preview
2024-12-30
2409.9
132
0.323628
3.61585
3.60976
o1-mini
2024-12-30
833.071
127
0.334908
3.72561
3.80488
gpt-4o
2024-12-30
225.91
124
0.320791
3.67683
3.70732
gpt-4o-mini
2024-12-30
216.115
116
0.329899
3.59756
3.62195
claude-3-5-sonnet-20240620
2024-12-30
610.517
115
0.297904
3.62195
3.64634
claude-3-5-sonnet-20241022
2024-12-30
263.437
107
0.32699
3.62195
3.62805
gemini-1.5-pro
2024-12-30
528.55
103
0.33468
3.4878
3.42073
gemini-1.5-flash
2024-12-30
755.996
1
0.263544
0.743902
0.695122
Tiempo Total de Respuesta (s): El tiempo total que tomó al modelo generar todas las salidas.
Pruebas aprobadas: El número de pruebas unitarias que el modelo ha aprobado durante la evaluación, de un total de 164 pruebas.
Media de CodeBLEU: Puntuación promedio de CodeBLEU, una métrica para evaluar la calidad de generación de código basada en la corrección sintáctica y semántica.
Media de Puntuación de Utilidad: Calificación promedio de la utilidad de la salida del modelo según lo evaluado por un modelo LLM.
0: El fragmento no es útil en absoluto, es irrelevante para el problema.
1: El fragmento es ligeramente útil, contiene información relevante para el problema, pero es más fácil escribir la solución desde cero.
2: El fragmento es algo útil, requiere cambios significativos (en comparación con el tamaño del fragmento), pero sigue siendo útil.
3: El fragmento es útil, pero necesita ser ligeramente modificado para resolver el problema.
4: El fragmento es muy útil, resuelve el problema.
Media de Puntuación de Corrección Funcional: Puntuación promedio de la corrección funcional de las salidas del modelo, evaluando qué tan bien las salidas cumplen con los requisitos funcionales, calificada por un modelo LLM.
0 (fallando todas las pruebas posibles): El fragmento de código es totalmente incorrecto y sin sentido.
4 (aprobando todas las pruebas posibles): El fragmento de código es totalmente correcto y puede manejar todos los casos.
Última actualización