تقرير تقييم LLM
Last updated
Last updated
o1-preview
2025-04-02
3264.19
134
0.320351
3.60976
3.59756
o1-mini
2025-04-02
964.977
129
0.336816
3.69512
3.75
gpt-4o
2025-04-02
228.668
128
0.310692
3.71951
3.67073
gpt-4o-mini
2025-04-02
248.679
116
0.321981
3.62805
3.61585
claude-3-5-sonnet-20240620
2025-04-02
276.394
108
0.30484
3.67683
3.66463
claude-3-5-sonnet-20241022
2025-04-02
291.706
112
0.328969
3.68902
3.70732
gemini-1.5-pro
2025-04-02
518.354
103
0.327295
3.46951
3.41463
gemini-1.5-flash
2025-04-02
763.949
0
0.261228
0.792683
1.32317
إجمالي وقت الاستجابة (ث): الوقت الإجمالي الذي استغرقه النموذج لتوليد جميع المخرجات.
الاختبارات الناجحة: عدد اختبارات الوحدة التي اجتازها النموذج أثناء التقييم، من إجمالي 164 اختبارًا.
متوسط : متوسط درجة CodeBLEU، وهو مقياس لتقييم جودة توليد الكود بناءً على كل من الصحة النحوية والدلالية.
متوسط : متوسط تقييم فائدة مخرجات النموذج كما تم تقييمها بواسطة نموذج LLM.
0: المقتطف غير مفيد على الإطلاق، فهو غير ذي صلة بالمشكلة.
1: المقتطف مفيد قليلاً، يحتوي على معلومات ذات صلة بالمشكلة، ولكن من الأسهل كتابة الحل من الصفر.
2: المقتطف مفيد إلى حد ما، يتطلب تغييرات كبيرة (مقارنة بحجم المقتطف)، ولكنه لا يزال مفيدًا.
3: المقتطف مفيد، ولكنه يحتاج إلى تغييرات طفيفة لحل المشكلة.
4: المقتطف مفيد جدًا، فهو يحل المشكلة.
متوسط : متوسط درجة الصحة الوظيفية لمخرجات النموذج، يقيم مدى توافق المخرجات مع المتطلبات الوظيفية، كما تم تقييمه بواسطة نموذج LLM.
0 (يفشل في جميع الاختبارات الممكنة): المقتطف البرمجي غير صحيح تمامًا ولا معنى له.
4 (ينجح في جميع الاختبارات الممكنة): المقتطف البرمجي صحيح تمامًا ويمكنه التعامل مع جميع الحالات.