# تقرير تقييم LLM

| النموذج                       | التاريخ    | إجمالي وقت الاستجابة (ث) | الاختبارات الناجحة | متوسط CodeBLEU (0-1) | متوسط درجة الفائدة (0-4) | متوسط درجة الصحة الوظيفية (0-4) |
| ----------------------------- | ---------- | -----------------------: | -----------------: | -------------------: | -----------------------: | ------------------------------: |
| gpt-5.4                       | 2026-03-18 |                  371.302 |                151 |              0.30016 |                  3.85976 |                         3.88415 |
| gpt-5                         | 2026-03-18 |                  3307.15 |                160 |             0.312013 |                  3.71951 |                         3.82927 |
| gpt-5-mini                    | 2026-03-18 |                  2223.12 |                161 |             0.305418 |                  3.79268 |                         3.93293 |
| claude-opus-4-6               | 2026-03-18 |                  630.643 |                164 |              0.38829 |                  3.87195 |                         3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                   604.89 |                161 |             0.379059 |                  3.85366 |                         3.90854 |
| claude-opus-4-1               | 2026-03-18 |                  635.166 |                157 |             0.349491 |                  3.85366 |                         3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                   546.74 |                162 |             0.331766 |                  3.89024 |                         3.95732 |
| claude-haiku-4-5              | 2026-03-18 |                  280.497 |                154 |             0.317284 |                  3.84756 |                         3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |                  3339.78 |                162 |             0.395161 |                  3.73171 |                         3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |                  176.493 |                148 |             0.370935 |                  3.77439 |                         3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |                  2146.97 |                142 |             0.395257 |                  3.59146 |                         3.60366 |
| gemini-2.5-pro                | 2026-03-18 |                  2788.94 |                118 |             0.373488 |                   3.2561 |                         3.38415 |
| gemini-2.5-flash              | 2026-03-18 |                  952.543 |                148 |             0.338621 |                   3.7439 |                         3.83537 |

**إجمالي وقت الاستجابة (ث):** الوقت الإجمالي الذي استغرقه النموذج لتوليد جميع المخرجات.

**الاختبارات الناجحة:** عدد اختبارات الوحدة التي اجتازها النموذج خلال التقييم، من إجمالي 164 اختبارًا.

**متوسط** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** متوسط درجة CodeBLEU، وهو مقياس لتقييم جودة توليد الكود بناءً على كل من الصحة النحوية والدلالية.

**متوسط** [**درجة الفائدة**](https://arxiv.org/abs/2304.14317)**:** متوسط تقييم فائدة مخرجات النموذج كما تم تقييمه بواسطة نموذج LLM.

* **0:** المقتطف غير مفيد على الإطلاق، فهو غير ذي صلة بالمشكلة.
* **1:** المقتطف مفيد قليلاً، يحتوي على معلومات ذات صلة بالمشكلة، ولكن من الأسهل كتابة الحل من الصفر.
* **2:** المقتطف مفيد إلى حد ما، يتطلب تغييرات كبيرة (مقارنة بحجم المقتطف)، ولكنه لا يزال مفيدًا.
* **3:** المقتطف مفيد، ولكنه يحتاج إلى تغييرات طفيفة لحل المشكلة.
* **4:** المقتطف مفيد جدًا، فهو يحل المشكلة.

**متوسط** [**درجة الصحة الوظيفية**](https://arxiv.org/abs/2304.14317)**:** متوسط درجة الصحة الوظيفية لمخرجات النموذج، يقيم مدى توافق المخرجات مع المتطلبات الوظيفية، كما تم تقييمه بواسطة نموذج LLM.

* **0 (يفشل في جميع الاختبارات الممكنة):** المقتطف البرمجي غير صحيح تمامًا وبدون معنى.
* **4 (ينجح في جميع الاختبارات الممكنة):** المقتطف البرمجي صحيح تمامًا ويمكنه التعامل مع جميع الحالات.
