Informe de Evaluación de LLM
Última actualización
Última actualización
Modelo | Fecha | Tiempo Total de Respuesta (s) | Pruebas Aprobadas | Media CodeBLEU (0-1) | Media de Puntuación de Utilidad (0-4) | Media de Puntuación de Corrección Funcional (0-4) |
---|---|---|---|---|---|---|
Tiempo Total de Respuesta (s): El tiempo total que tomó al modelo generar todas las salidas.
Pruebas aprobadas: El número de pruebas unitarias que el modelo ha aprobado durante la evaluación, de un total de 164 pruebas.
Media CodeBLEU: Puntuación promedio de CodeBLEU, una métrica para evaluar la calidad de generación de código basada en la corrección sintáctica y semántica.
Media Puntuación de Utilidad: Puntuación promedio de la utilidad de la salida del modelo según lo evaluado por un modelo LLM.
0: El fragmento no es útil en absoluto, es irrelevante para el problema.
1: El fragmento es ligeramente útil, contiene información relevante para el problema, pero es más fácil escribir la solución desde cero.
2: El fragmento es algo útil, requiere cambios significativos (en comparación con el tamaño del fragmento), pero sigue siendo útil.
3: El fragmento es útil, pero necesita ser ligeramente modificado para resolver el problema.
4: El fragmento es muy útil, resuelve el problema.
Media Puntuación de Corrección Funcional: Puntuación promedio de la corrección funcional de las salidas del modelo, evaluando qué tan bien las salidas cumplen con los requisitos funcionales, evaluadas por un modelo LLM.
0 (fallando todas las pruebas posibles): El fragmento de código es totalmente incorrecto y sin sentido.
4 (aprobando todas las pruebas posibles): El fragmento de código es totalmente correcto y puede manejar todos los casos.
o1-preview
2024-11-20
2006
131
0.316933
3.60366
3.64024
o1-mini
2024-11-20
680.368
133
0.342896
3.68293
3.7561
gpt-4o
2024-11-20
354.689
126
0.322102
3.7378
3.75
gpt-4o-mini
2024-11-20
201.423
112
0.33042
3.67073
3.72561
claude-3-5-sonnet-20240620
2024-11-20
318.568
111
0.306173
3.66463
3.64024
claude-3-5-sonnet-20241022
2024-11-20
327.833
109
0.327235
3.65854
3.64634
gemini-1.5-pro
2024-11-20
516.921
92
0.333394
3.5061
3.5122
gemini-1.5-flash
2024-11-20
759.693
2
0.270065
0.670732
0.829268