تقرير تقييم LLM
o1-preview
2025-02-06
2460.71
130
0.300355
3.62195
3.64634
o1-mini
2025-02-06
1169.48
123
0.33154
3.68902
3.67683
gpt-4o
2025-02-06
413.287
122
0.312401
3.70122
3.67683
gpt-4o-mini
2025-02-06
245.404
119
0.333494
3.65244
3.71951
claude-3-5-sonnet-20240620
2025-02-06
335.54
113
0.300797
3.65244
3.66463
claude-3-5-sonnet-20241022
2025-02-06
374.136
117
0.333618
3.72561
3.70732
gemini-1.5-pro
2025-02-06
500.452
107
0.325038
3.4878
3.5061
gemini-1.5-flash
2025-02-06
768.339
1
0.26343
0.72561
0.835366
إجمالي وقت الاستجابة (ث): الوقت الإجمالي الذي استغرقه النموذج لتوليد جميع المخرجات.
الاختبارات الناجحة: عدد اختبارات الوحدة التي اجتازها النموذج خلال التقييم، من إجمالي 164 اختبارًا.
متوسط CodeBLEU: متوسط درجة CodeBLEU، وهو مقياس لتقييم جودة توليد الكود بناءً على كل من الصحة النحوية والدلالية.
متوسط درجة الفائدة: متوسط تقييم فائدة مخرجات النموذج كما تم تقييمه بواسطة نموذج LLM.
0: المقتطف غير مفيد على الإطلاق، فهو غير ذي صلة بالمشكلة.
1: المقتطف مفيد قليلاً، يحتوي على معلومات ذات صلة بالمشكلة، لكن من الأسهل كتابة الحل من الصفر.
2: المقتطف مفيد إلى حد ما، يتطلب تغييرات كبيرة (مقارنة بحجم المقتطف)، لكنه لا يزال مفيدًا.
3: المقتطف مفيد، لكنه يحتاج إلى تغييرات طفيفة لحل المشكلة.
4: المقتطف مفيد جدًا، فهو يحل المشكلة.
متوسط درجة الصحة الوظيفية: متوسط درجة الصحة الوظيفية لمخرجات النموذج، يقيم مدى توافق المخرجات مع المتطلبات الوظيفية، كما تم تقييمه بواسطة نموذج LLM.
0 (يفشل في جميع الاختبارات الممكنة): المقتطف البرمجي غير صحيح تمامًا وبدون معنى.
4 (ينجح في جميع الاختبارات الممكنة): المقتطف البرمجي صحيح تمامًا ويمكنه التعامل مع جميع الحالات.
Last updated