تقرير تقييم LLM

النموذج
التاريخ
إجمالي وقت الاستجابة (ث)
الاختبارات الناجحة
متوسط CodeBLEU (0-1)
متوسط درجة الفائدة (0-4)
متوسط درجة الصحة الوظيفية (0-4)

gpt-5.4

2026-03-18

371.302

151

0.30016

3.85976

3.88415

gpt-5

2026-03-18

3307.15

160

0.312013

3.71951

3.82927

gpt-5-mini

2026-03-18

2223.12

161

0.305418

3.79268

3.93293

claude-opus-4-6

2026-03-18

630.643

164

0.38829

3.87195

3.90854

claude-sonnet-4-6

2026-03-18

604.89

161

0.379059

3.85366

3.90854

claude-opus-4-1

2026-03-18

635.166

157

0.349491

3.85366

3.92683

claude-sonnet-4-5

2026-03-18

546.74

162

0.331766

3.89024

3.95732

claude-haiku-4-5

2026-03-18

280.497

154

0.317284

3.84756

3.92073

gemini-3.1-pro-preview

2026-03-18

3339.78

162

0.395161

3.73171

3.82317

gemini-3.1-flash-lite-preview

2026-03-18

176.493

148

0.370935

3.77439

3.87805

gemini-3-flash-preview

2026-03-18

2146.97

142

0.395257

3.59146

3.60366

gemini-2.5-pro

2026-03-18

2788.94

118

0.373488

3.2561

3.38415

gemini-2.5-flash

2026-03-18

952.543

148

0.338621

3.7439

3.83537

إجمالي وقت الاستجابة (ث): الوقت الإجمالي الذي استغرقه النموذج لتوليد جميع المخرجات.

الاختبارات الناجحة: عدد اختبارات الوحدة التي اجتازها النموذج خلال التقييم، من إجمالي 164 اختبارًا.

متوسط CodeBLEUarrow-up-right: متوسط درجة CodeBLEU، وهو مقياس لتقييم جودة توليد الكود بناءً على كل من الصحة النحوية والدلالية.

متوسط درجة الفائدةarrow-up-right: متوسط تقييم فائدة مخرجات النموذج كما تم تقييمه بواسطة نموذج LLM.

  • 0: المقتطف غير مفيد على الإطلاق، فهو غير ذي صلة بالمشكلة.

  • 1: المقتطف مفيد قليلاً، يحتوي على معلومات ذات صلة بالمشكلة، ولكن من الأسهل كتابة الحل من الصفر.

  • 2: المقتطف مفيد إلى حد ما، يتطلب تغييرات كبيرة (مقارنة بحجم المقتطف)، ولكنه لا يزال مفيدًا.

  • 3: المقتطف مفيد، ولكنه يحتاج إلى تغييرات طفيفة لحل المشكلة.

  • 4: المقتطف مفيد جدًا، فهو يحل المشكلة.

متوسط درجة الصحة الوظيفيةarrow-up-right: متوسط درجة الصحة الوظيفية لمخرجات النموذج، يقيم مدى توافق المخرجات مع المتطلبات الوظيفية، كما تم تقييمه بواسطة نموذج LLM.

  • 0 (يفشل في جميع الاختبارات الممكنة): المقتطف البرمجي غير صحيح تمامًا وبدون معنى.

  • 4 (ينجح في جميع الاختبارات الممكنة): المقتطف البرمجي صحيح تمامًا ويمكنه التعامل مع جميع الحالات.

Last updated