SkyDeck.ai Docs
الاشتراكتسجيل دخول المشرفاتصل بنا
دليل
دليل
  • SkyDeck.ai
  • GenStudio Workspace
    • المحادثات
    • تطبيق SkyDeck AI Helper
    • تحميل الوثائق
    • المشاركة والتعاون
    • مزامنة Slack
    • لقطات عامة
    • تصفح الويب
    • الأدوات
      • مساعد البرمجة
        • كيفية الاستخدام
        • مثال – مساعدة نص برمجي بلغة بايثون
      • مساعد SQL
        • كيفية الاستخدام
        • مثال – تصحيح الاستعلام
      • مراجعة الاتفاقيات القانونية
        • كيفية الاستخدام
        • مثال – بند NDA
      • علمني أي شيء
        • كيفية الاستخدام
        • مثال – مقدمة في البرمجة
      • استشاري استراتيجي
        • كيفية الاستخدام
        • مثال – الاحتفاظ بالموظفين
      • مولد الصور
        • كيفية الاستخدام
        • مثال – أرض العجائب الشتوية
    • أمان البيانات
      • منع فقدان البيانات
  • مركز التحكم
    • أدوات الإدارة والمالكين
    • دليل الإعداد
      • إعداد الحساب
      • إعداد التكاملات
        • مساعدة التكامل
      • إعداد الأمان
        • المصادقة (SSO)
      • تنظيم الفرق
        • إضافة مجموعة جديدة
        • إزالة المجموعات
      • تنسيق الأدوات
        • أدوات النظام
        • تعيين العلامات
      • إدارة الأعضاء
        • إضافة أعضاء
        • استيراد ملف
        • دعوة الأعضاء
        • تحرير الأعضاء
    • الفوترة
      • تجربة مجانية
      • شراء رصيد
      • الخطط والترقيات
      • أسعار استخدام النموذج
  • التكاملات
    • LLMs وقواعد البيانات
      • تكامل Anthropic
      • تكامل قاعدة البيانات
      • تكامل Groq
      • تكامل HuggingFace
      • تكامل Mistral
      • تكامل OpenAI
      • تكامل Perplexity
      • تكامل Together AI
      • تكامل Vertex AI
    • تكاملات التطبيقات
      • تكامل Rememberizer
      • تكامل Slack
  • المطورون
    • طور أدواتك الخاصة
      • تنسيق JSON للأدوات
      • تنسيق JSON لأدوات LLM
      • مثال: مولد واجهة مستخدم نصية
      • تنسيق JSON للأدوات الذكية
  • حالات الاستخدام
    • إنشاء سياسة الخصوصية
  • الإشعارات
    • شروط الاستخدام
    • سياسة الخصوصية
    • إشعار الكوكيز
  • الإصدارات
    • 23 مايو 2025
    • 16 مايو 2025
    • 9 مايو 2025
    • 2 مايو 2025
    • 25 أبريل 2025
    • 18 أبريل 2025
    • 11 أبريل 2025
    • 4 أبريل 2025
    • 28 مارس 2025
    • 21 مارس 2025
    • 14 مارس 2025
    • 7 مارس 2025
    • 28 فبراير 2025
    • 21 فبراير 2025
    • 14 فبراير 2025
    • 7 فبراير 2025
    • 31 يناير 2025
    • 24 يناير 2025
    • 17 يناير 2025
    • 10 يناير 2025
    • 3 يناير 2025
    • 27 ديسمبر 2024
    • 20 ديسمبر 2024
    • 13 ديسمبر 2024
    • 6 ديسمبر 2024
    • 29 نوفمبر 2024
    • 22 نوفمبر 2024
    • 15 نوفمبر 2024
    • 8 نوفمبر 2024
    • 1 نوفمبر 2024
    • 25 أكتوبر 2024
    • 18 أكتوبر 2024
    • 11 أكتوبر 2024
    • 4 أكتوبر 2024
    • 27 سبتمبر 2024
    • 20 سبتمبر 2024
    • 13 سبتمبر 2024
    • 6 سبتمبر 2024
    • 23 أغسطس 2024
    • 16 أغسطس 2024
    • 9 أغسطس 2024
    • 2 أغسطس 2024
    • 26 يوليو 2024
    • 12 يوليو 2024
    • 5 يوليو 2024
    • 28 يونيو 2024
    • 21 يونيو 2024
    • 12 نوفمبر 2023
    • 6 نوفمبر 2023
    • 30 أكتوبر 2023
    • 23 أكتوبر 2023
    • 16 أكتوبر 2023
    • 18 سبتمبر 2023
    • 8 سبتمبر 2023
  • الأمان
    • ممارسات أمان SkyDeck.ai
    • برنامج مكافآت الأخطاء
  • وثائق الذكاء الاصطناعي
    • تقرير تقييم LLM
    • وثائق جاهزة لـ LLM من SkyDeck.ai
Powered by GitBook
On this page
  1. وثائق الذكاء الاصطناعي

تقرير تقييم LLM

Previousوثائق الذكاء الاصطناعيNextوثائق جاهزة لـ LLM من SkyDeck.ai

Last updated 25 days ago

النموذج
التاريخ
إجمالي وقت الاستجابة (ث)
الاختبارات الناجحة
متوسط CodeBLEU (0-1)
متوسط درجة الفائدة (0-4)
متوسط درجة الصحة الوظيفية (0-4)

o1-preview

2025-04-02

3264.19

134

0.320351

3.60976

3.59756

o1-mini

2025-04-02

964.977

129

0.336816

3.69512

3.75

gpt-4o

2025-04-02

228.668

128

0.310692

3.71951

3.67073

gpt-4o-mini

2025-04-02

248.679

116

0.321981

3.62805

3.61585

claude-3-5-sonnet-20240620

2025-04-02

276.394

108

0.30484

3.67683

3.66463

claude-3-5-sonnet-20241022

2025-04-02

291.706

112

0.328969

3.68902

3.70732

gemini-1.5-pro

2025-04-02

518.354

103

0.327295

3.46951

3.41463

gemini-1.5-flash

2025-04-02

763.949

0

0.261228

0.792683

1.32317

إجمالي وقت الاستجابة (ث): الوقت الإجمالي الذي استغرقه النموذج لتوليد جميع المخرجات.

الاختبارات الناجحة: عدد اختبارات الوحدة التي اجتازها النموذج أثناء التقييم، من إجمالي 164 اختبارًا.

متوسط : متوسط درجة CodeBLEU، وهو مقياس لتقييم جودة توليد الكود بناءً على كل من الصحة النحوية والدلالية.

متوسط : متوسط تقييم فائدة مخرجات النموذج كما تم تقييمها بواسطة نموذج LLM.

  • 0: المقتطف غير مفيد على الإطلاق، فهو غير ذي صلة بالمشكلة.

  • 1: المقتطف مفيد قليلاً، يحتوي على معلومات ذات صلة بالمشكلة، ولكن من الأسهل كتابة الحل من الصفر.

  • 2: المقتطف مفيد إلى حد ما، يتطلب تغييرات كبيرة (مقارنة بحجم المقتطف)، ولكنه لا يزال مفيدًا.

  • 3: المقتطف مفيد، ولكنه يحتاج إلى تغييرات طفيفة لحل المشكلة.

  • 4: المقتطف مفيد جدًا، فهو يحل المشكلة.

متوسط : متوسط درجة الصحة الوظيفية لمخرجات النموذج، يقيم مدى توافق المخرجات مع المتطلبات الوظيفية، كما تم تقييمه بواسطة نموذج LLM.

  • 0 (يفشل في جميع الاختبارات الممكنة): المقتطف البرمجي غير صحيح تمامًا ولا معنى له.

  • 4 (ينجح في جميع الاختبارات الممكنة): المقتطف البرمجي صحيح تمامًا ويمكنه التعامل مع جميع الحالات.

CodeBLEU
درجة الفائدة
درجة الصحة الوظيفية