Informe de Evaluación de LLM
Modelo | Fecha | Tiempo Total de Respuesta (s) | Pruebas Aprobadas | Media CodeBLEU (0-1) | Media de Puntuación de Utilidad (0-4) | Media de Puntuación de Corrección Funcional (0-4) |
---|---|---|---|---|---|---|
gpt-4o-mini | 2024-10-18 | 180.098 | 113 | 0.331988 | 3.66463 | 3.65854 |
gemini-1.5-pro | 2024-10-18 | 533.694 | 104 | 0.338663 | 3.55488 | 3.59756 |
claude-3-5-sonnet-20240620 | 2024-10-18 | 339.244 | 112 | 0.300819 | 3.68293 | 3.65854 |
gpt-4o | 2024-10-18 | 201.997 | 128 | 0.314057 | 3.75 | 3.71951 |
o1-mini | 2024-10-18 | 773.989 | 130 | 0.335063 | 3.71951 | 3.71951 |
o1-preview | 2024-10-18 | 2207.5 | 127 | 0.322271 | 3.60366 | 3.60976 |
claude-3-opus-20240229 | 2024-10-18 | 1056.03 | 114 | 0.322514 | 3.7439 | 3.67683 |
Tiempo Total de Respuesta (s): El tiempo total que tomó el modelo para generar todas las salidas.
Pruebas aprobadas: El número de pruebas unitarias que el modelo ha aprobado durante la evaluación, de un total de 164 pruebas.
Media CodeBLEU: Puntuación promedio de CodeBLEU, una métrica para evaluar la calidad de generación de código basada en la corrección sintáctica y semántica.
Media Puntuación de Utilidad: Calificación promedio de la utilidad de la salida del modelo según lo evaluado por un modelo LLM.
0: El fragmento no es útil en absoluto, es irrelevante para el problema.
1: El fragmento es ligeramente útil, contiene información relevante para el problema, pero es más fácil escribir la solución desde cero.
2: El fragmento es algo útil, requiere cambios significativos (en comparación con el tamaño del fragmento), pero sigue siendo útil.
3: El fragmento es útil, pero necesita ser ligeramente modificado para resolver el problema.
4: El fragmento es muy útil, resuelve el problema.
Media Puntuación de Corrección Funcional: Puntuación promedio de la corrección funcional de las salidas del modelo, evaluando qué tan bien las salidas cumplen con los requisitos funcionales, evaluadas por un modelo LLM.
0 (fallando todas las pruebas posibles): El fragmento de código es totalmente incorrecto y sin sentido.
4 (aprobando todas las pruebas posibles): El fragmento de código es totalmente correcto y puede manejar todos los casos.
Última actualización