> For the complete documentation index, see [llms.txt](https://docs.skydeck.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.skydeck.ai/ar/ai-documentations/llm-evaluation-report.md).

# تقرير تقييم LLM

| النموذج                       | التاريخ    | إجمالي وقت الاستجابة (ث) | الاختبارات الناجحة | متوسط CodeBLEU (0-1) | متوسط درجة الفائدة (0-4) | متوسط درجة الصحة الوظيفية (0-4) |
| ----------------------------- | ---------- | -----------------------: | -----------------: | -------------------: | -----------------------: | ------------------------------: |
| gpt-5.4                       | 2026-03-18 |                  371.302 |                151 |              0.30016 |                  3.85976 |                         3.88415 |
| gpt-5                         | 2026-03-18 |                  3307.15 |                160 |             0.312013 |                  3.71951 |                         3.82927 |
| gpt-5-mini                    | 2026-03-18 |                  2223.12 |                161 |             0.305418 |                  3.79268 |                         3.93293 |
| claude-opus-4-6               | 2026-03-18 |                  630.643 |                164 |              0.38829 |                  3.87195 |                         3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |                   604.89 |                161 |             0.379059 |                  3.85366 |                         3.90854 |
| claude-opus-4-1               | 2026-03-18 |                  635.166 |                157 |             0.349491 |                  3.85366 |                         3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |                   546.74 |                162 |             0.331766 |                  3.89024 |                         3.95732 |
| claude-haiku-4-5              | 2026-03-18 |                  280.497 |                154 |             0.317284 |                  3.84756 |                         3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |                  3339.78 |                162 |             0.395161 |                  3.73171 |                         3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |                  176.493 |                148 |             0.370935 |                  3.77439 |                         3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |                  2146.97 |                142 |             0.395257 |                  3.59146 |                         3.60366 |
| gemini-2.5-pro                | 2026-03-18 |                  2788.94 |                118 |             0.373488 |                   3.2561 |                         3.38415 |
| gemini-2.5-flash              | 2026-03-18 |                  952.543 |                148 |             0.338621 |                   3.7439 |                         3.83537 |

**إجمالي وقت الاستجابة (ث):** الوقت الإجمالي الذي استغرقه النموذج لتوليد جميع المخرجات.

**الاختبارات الناجحة:** عدد اختبارات الوحدة التي اجتازها النموذج خلال التقييم، من إجمالي 164 اختبارًا.

**متوسط** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** متوسط درجة CodeBLEU، وهو مقياس لتقييم جودة توليد الكود بناءً على كل من الصحة النحوية والدلالية.

**متوسط** [**درجة الفائدة**](https://arxiv.org/abs/2304.14317)**:** متوسط تقييم فائدة مخرجات النموذج كما تم تقييمه بواسطة نموذج LLM.

* **0:** المقتطف غير مفيد على الإطلاق، فهو غير ذي صلة بالمشكلة.
* **1:** المقتطف مفيد قليلاً، يحتوي على معلومات ذات صلة بالمشكلة، ولكن من الأسهل كتابة الحل من الصفر.
* **2:** المقتطف مفيد إلى حد ما، يتطلب تغييرات كبيرة (مقارنة بحجم المقتطف)، ولكنه لا يزال مفيدًا.
* **3:** المقتطف مفيد، ولكنه يحتاج إلى تغييرات طفيفة لحل المشكلة.
* **4:** المقتطف مفيد جدًا، فهو يحل المشكلة.

**متوسط** [**درجة الصحة الوظيفية**](https://arxiv.org/abs/2304.14317)**:** متوسط درجة الصحة الوظيفية لمخرجات النموذج، يقيم مدى توافق المخرجات مع المتطلبات الوظيفية، كما تم تقييمه بواسطة نموذج LLM.

* **0 (يفشل في جميع الاختبارات الممكنة):** المقتطف البرمجي غير صحيح تمامًا وبدون معنى.
* **4 (ينجح في جميع الاختبارات الممكنة):** المقتطف البرمجي صحيح تمامًا ويمكنه التعامل مع جميع الحالات.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.skydeck.ai/ar/ai-documentations/llm-evaluation-report.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
