SkyDeck.ai Docs
google.com
Tiếng Việt
Tiếng Việt
  • SkyDeck.ai
  • GenStudio Workspace
    • Cuộc trò chuyện
    • Ứng dụng Trợ lý AI SkyDeck
    • Tải tài liệu lên
    • Chia sẻ và Hợp tác
    • Đồng bộ hóa Slack
    • Ảnh chụp công khai
    • Duyệt web
    • Công cụ
      • Lập trình cặp
        • Cách sử dụng
        • Ví dụ – Hỗ trợ kịch bản Python
      • Trợ lý SQL
        • Cách sử dụng
        • Ví dụ – Gỡ lỗi truy vấn
      • Xem xét Thỏa thuận Pháp lý
        • Cách sử dụng
        • Ví dụ – Điều khoản NDA
      • Dạy tôi bất cứ điều gì
        • Cách sử dụng
        • Ví dụ – Giới thiệu về Lập trình
      • Tư vấn Chiến lược
        • Cách sử dụng
        • Ví dụ – Giữ chân nhân viên
      • Tạo hình ảnh
        • Cách sử dụng
        • Ví dụ – Cảnh mùa đông
    • Bảo mật Dữ liệu
      • Ngăn ngừa Mất dữ liệu
  • Trung tâm Điều khiển
    • Công cụ Quản trị & Chủ sở hữu
    • Hướng dẫn Cài đặt
      • Cài đặt Tài khoản
      • Cài đặt Tích hợp
        • Hỗ trợ Tích hợp
      • Cài đặt Bảo mật
        • Xác thực (SSO)
      • Tổ chức Nhóm
        • Thêm Nhóm Mới
        • Xóa Nhóm
      • Biên soạn Công cụ
        • Công cụ Hệ thống
        • Gán Thẻ
      • Quản lý Thành viên
        • Thêm Thành viên
        • Nhập Tệp
        • Mời Thành viên
        • Chỉnh sửa Thành viên
    • Thanh toán
      • Dùng thử Miễn phí
      • Mua Tín dụng
      • Kế hoạch và Nâng cấp
      • Giá sử dụng Mô hình
  • Tích hợp
    • LLMs và Cơ sở dữ liệu
      • Tích hợp Anthropic
      • Tích hợp Cơ sở dữ liệu
      • Tích hợp Groq
      • Tích hợp HuggingFace
      • Tích hợp Mistral
      • Tích hợp OpenAI
      • Tích hợp Perplexity
      • Tích hợp Together AI
      • Tích hợp Vertex AI
    • Tích hợp Ứng dụng
      • Tích hợp Rememberizer
      • Tích hợp Slack
  • Nhà phát triển
    • Phát triển Công cụ của Bạn
      • Định dạng JSON cho Công cụ
      • Định dạng JSON cho Công cụ LLM
      • Ví dụ: Tạo UI dựa trên văn bản
      • Định dạng JSON cho Công cụ Thông minh
  • Trường hợp sử dụng
    • Tạo Chính sách Bảo mật
  • Thông báo
    • Điều khoản Sử dụng
    • Chính sách Bảo mật
    • Thông báo Cookie
  • Phát hành
    • Ngày 16 tháng 5 năm 2025
    • Ngày 9 tháng 5 năm 2025
    • Ngày 2 tháng 5 năm 2025
    • Ngày 25 tháng 4 năm 2025
    • Ngày 18 tháng 4 năm 2025
    • Ngày 11 tháng 4 năm 2025
    • Ngày 4 tháng 4 năm 2025
    • Ngày 28 tháng 3 năm 2025
    • Ngày 21 tháng 3 năm 2025
    • Ngày 14 tháng 3 năm 2025
    • Ngày 7 tháng 3 năm 2025
    • Ngày 28 tháng 2 năm 2025
    • Ngày 21 tháng 2 năm 2025
    • Ngày 14 tháng 2 năm 2025
    • Ngày 7 tháng 2 năm 2025
    • Ngày 31 tháng 1 năm 2025
    • Ngày 24 tháng 1 năm 2025
    • Ngày 17 tháng 1 năm 2025
    • Ngày 10 tháng 1 năm 2025
    • Ngày 3 tháng 1 năm 2025
    • Ngày 27 tháng 12 năm 2024
    • Ngày 20 tháng 12 năm 2024
    • Ngày 13 tháng 12 năm 2024
    • Ngày 6 tháng 12 năm 2024
    • Ngày 29 tháng 11 năm 2024
    • Ngày 22 tháng 11 năm 2024
    • Ngày 15 tháng 11 năm 2024
    • Ngày 8 tháng 11 năm 2024
    • Ngày 1 tháng 11 năm 2024
    • Ngày 25 tháng 10 năm 2024
    • Ngày 18 tháng 10 năm 2024
    • Ngày 11 tháng 10 năm 2024
    • Ngày 4 tháng 10 năm 2024
    • Ngày 27 tháng 9 năm 2024
    • Ngày 20 tháng 9 năm 2024
    • Ngày 13 tháng 9 năm 2024
    • Ngày 6 tháng 9 năm 2024
    • Ngày 23 tháng 8 năm 2024
    • Ngày 16 tháng 8 năm 2024
    • Ngày 9 tháng 8 năm 2024
    • Ngày 2 tháng 8 năm 2024
    • Ngày 26 tháng 7 năm 2024
    • Ngày 12 tháng 7 năm 2024
    • Ngày 5 tháng 7 năm 2024
    • Ngày 28 tháng 6 năm 2024
    • Ngày 21 tháng 6 năm 2024
    • Ngày 12 tháng 11 năm 2023
    • Ngày 6 tháng 11 năm 2023
    • Ngày 30 tháng 10 năm 2023
    • Ngày 23 tháng 10 năm 2023
    • Ngày 16 tháng 10 năm 2023
    • Ngày 18 tháng 9 năm 2023
    • Ngày 8 tháng 9 năm 2023
  • Bảo mật
    • Thực hành Bảo mật SkyDeck.ai
    • Chương trình Phần thưởng Lỗi
  • Tài liệu AI
    • Báo cáo Đánh giá LLM
    • Tài liệu Sẵn sàng LLM SkyDeck.ai
Powered by GitBook
On this page
  1. Tài liệu AI

Báo cáo Đánh giá LLM

Last updated 22 days ago

Mô hình
Ngày
Thời gian Phản hồi Tổng (s)
Số bài kiểm tra đã vượt qua
Điểm CodeBLEU Trung bình (0-1)
Điểm Tính hữu ích Trung bình (0-4)
Điểm Đúng chức năng Trung bình (0-4)

o1-preview

2025-04-02

3264.19

134

0.320351

3.60976

3.59756

o1-mini

2025-04-02

964.977

129

0.336816

3.69512

3.75

gpt-4o

2025-04-02

228.668

128

0.310692

3.71951

3.67073

gpt-4o-mini

2025-04-02

248.679

116

0.321981

3.62805

3.61585

claude-3-5-sonnet-20240620

2025-04-02

276.394

108

0.30484

3.67683

3.66463

claude-3-5-sonnet-20241022

2025-04-02

291.706

112

0.328969

3.68902

3.70732

gemini-1.5-pro

2025-04-02

518.354

103

0.327295

3.46951

3.41463

gemini-1.5-flash

2025-04-02

763.949

0

0.261228

0.792683

1.32317

Thời gian Phản hồi Tổng (s): Thời gian tổng cộng mà mô hình mất để tạo ra tất cả các đầu ra.

Số bài kiểm tra đã vượt qua: Số lượng bài kiểm tra đơn vị mà mô hình đã vượt qua trong quá trình đánh giá, trong tổng số 164 bài kiểm tra.

Điểm Trung bình: Điểm CodeBLEU trung bình, một chỉ số để đánh giá chất lượng tạo mã dựa trên cả tính chính xác cú pháp và ngữ nghĩa.

Điểm : Điểm đánh giá trung bình về tính hữu ích của đầu ra của mô hình được đánh giá bởi một mô hình LLM.

  • 0: Đoạn mã hoàn toàn không hữu ích, không liên quan đến vấn đề.

  • 1: Đoạn mã hơi hữu ích, nó chứa thông tin liên quan đến vấn đề, nhưng dễ dàng hơn khi viết giải pháp từ đầu.

  • 2: Đoạn mã có phần hữu ích, nó yêu cầu thay đổi đáng kể (so với kích thước của đoạn mã), nhưng vẫn hữu ích.

  • 3: Đoạn mã hữu ích, nhưng cần thay đổi một chút để giải quyết vấn đề.

  • 4: Đoạn mã rất hữu ích, nó giải quyết được vấn đề.

Điểm : Điểm trung bình về tính đúng chức năng của các đầu ra của mô hình, đánh giá mức độ mà các đầu ra đáp ứng các yêu cầu chức năng, được đánh giá bởi một mô hình LLM.

  • 0 (thất bại tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn sai và vô nghĩa.

  • 4 (vượt qua tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn đúng và có thể xử lý tất cả các trường hợp.

CodeBLEU
Tính hữu ích Trung bình
Đúng chức năng Trung bình