SkyDeck.ai Docs
google.com
Tiếng Việt
Tiếng Việt
  • SkyDeck.ai
  • GenStudio Workspace
    • Cuộc trò chuyện
    • Ứng dụng Trợ lý AI SkyDeck
    • Tải tài liệu lên
    • Chia sẻ và Hợp tác
    • Đồng bộ hóa Slack
    • Ảnh chụp công khai
    • Duyệt web
    • Công cụ
      • Lập trình cặp
        • Cách sử dụng
        • Ví dụ – Hỗ trợ kịch bản Python
      • Trợ lý SQL
        • Cách sử dụng
        • Ví dụ – Gỡ lỗi truy vấn
      • Xem xét hợp đồng pháp lý
        • Cách sử dụng
        • Ví dụ – Điều khoản NDA
      • Dạy tôi bất cứ điều gì
        • Cách sử dụng
        • Ví dụ – Giới thiệu về lập trình
      • Tư vấn chiến lược
        • Cách sử dụng
        • Ví dụ – Giữ chân nhân viên
      • Tạo hình ảnh
        • Cách sử dụng
        • Ví dụ – Cảnh mùa đông
    • Bảo mật dữ liệu
      • Ngăn ngừa mất dữ liệu
  • Trung tâm điều khiển
    • Công cụ Quản trị & Chủ sở hữu
    • Hướng dẫn thiết lập
      • Thiết lập tài khoản
      • Thiết lập tích hợp
        • Hỗ trợ tích hợp
      • Thiết lập bảo mật
        • Xác thực (SSO)
      • Tổ chức nhóm
        • Thêm nhóm mới
        • Xóa nhóm
      • Tổ chức công cụ
        • Công cụ hệ thống
        • Gán thẻ
      • Quản lý thành viên
        • Thêm thành viên
        • Nhập tệp
        • Mời thành viên
        • Chỉnh sửa thành viên
    • Thanh toán
      • Dùng thử miễn phí
      • Mua tín dụng
      • Kế hoạch và nâng cấp
      • Giá sử dụng mô hình
  • Tích hợp
    • LLMs và Cơ sở dữ liệu
      • Tích hợp Anthropic
      • Tích hợp Cơ sở dữ liệu
      • Tích hợp Groq
      • Tích hợp HuggingFace
      • Tích hợp Mistral
      • Tích hợp OpenAI
      • Tích hợp Perplexity
      • Tích hợp Together AI
      • Tích hợp Vertex AI
    • Tích hợp Ứng dụng
      • Tích hợp Rememberizer
      • Tích hợp Slack
  • Nhà phát triển
    • Phát triển công cụ của riêng bạn
      • Định dạng JSON cho Công cụ
      • Định dạng JSON cho Công cụ LLM
      • Ví dụ: Tạo giao diện người dùng dựa trên văn bản
      • Định dạng JSON cho Công cụ Thông minh
  • Trường hợp sử dụng
    • Tạo Chính sách Bảo mật
  • Thông báo
    • Điều khoản Sử dụng
    • Chính sách Bảo mật
    • Thông báo Cookie
  • Phát hành
    • 13 tháng 6, 2025
    • 6 tháng 6, 2025
    • 30 tháng 5, 2025
    • 23 tháng 5, 2025
    • 16 tháng 5, 2025
    • 9 tháng 5, 2025
    • 2 tháng 5, 2025
    • 25 tháng 4, 2025
    • 18 tháng 4, 2025
    • 11 tháng 4, 2025
    • 4 tháng 4, 2025
    • 28 tháng 3, 2025
    • 21 tháng 3, 2025
    • 14 tháng 3, 2025
    • 7 tháng 3, 2025
    • 28 tháng 2, 2025
    • 21 tháng 2, 2025
    • 14 tháng 2, 2025
    • 7 tháng 2, 2025
    • 31 tháng 1, 2025
    • 24 tháng 1, 2025
    • 17 tháng 1, 2025
    • 10 tháng 1, 2025
    • 3 tháng 1, 2025
    • 27 tháng 12, 2024
    • 20 tháng 12, 2024
    • 13 tháng 12, 2024
    • 6 tháng 12, 2024
    • 29 tháng 11, 2024
    • 22 tháng 11, 2024
    • 15 tháng 11, 2024
    • 8 tháng 11, 2024
    • 1 tháng 11, 2024
    • 25 tháng 10, 2024
    • 18 tháng 10, 2024
    • 11 tháng 10, 2024
    • 4 tháng 10, 2024
    • 27 tháng 9, 2024
    • 20 tháng 9, 2024
    • 13 tháng 9, 2024
    • 6 tháng 9, 2024
    • 23 tháng 8, 2024
    • 16 tháng 8, 2024
    • 9 tháng 8, 2024
    • 2 tháng 8, 2024
    • 26 tháng 7, 2024
    • 12 tháng 7, 2024
    • 5 tháng 7, 2024
    • 28 tháng 6, 2024
    • 21 tháng 6, 2024
    • 12 tháng 11 năm 2023
    • 6 tháng 11 năm 2023
    • 30 tháng 10 năm 2023
    • 23 tháng 10 năm 2023
    • 16 tháng 10 năm 2023
    • 18 tháng 9 năm 2023
    • 8 tháng 9 năm 2023
  • Bảo mật
    • Thực hành Bảo mật SkyDeck.ai
    • Chương trình thưởng lỗi
  • Tài liệu AI
    • Báo cáo Đánh giá LLM
    • Tài liệu sẵn sàng LLM SkyDeck.ai
Powered by GitBook
On this page
  1. Tài liệu AI

Báo cáo Đánh giá LLM

Last updated 15 days ago

Mô hình
Ngày
Thời gian Phản hồi Tổng (s)
Số bài kiểm tra đã vượt qua
Điểm CodeBLEU Trung bình (0-1)
Điểm Sử dụng Trung bình (0-4)
Điểm Đúng Chức năng Trung bình (0-4)

claude-opus-4-20250514

2025-05-27

682.341

45

0.373498

3.68902

3.71951

claude-sonnet-4-20250514

2025-05-27

685.546

112

0.317174

3.7378

3.65854

claude-3-7-sonnet-20250219

2025-05-27

746.497

108

0.319258

3.65244

3.65244

claude-3-5-sonnet-20241022

2025-05-27

445.549

114

0.332094

3.65244

3.72561

gpt-4.1

2025-05-27

340.45

114

0.345565

3.71951

3.79878

o4-mini

2025-05-27

1380.26

128

0.322408

3.70122

3.7439

o3

2025-05-27

1592.45

141

0.314449

3.71341

3.85366

gpt-4o

2025-05-27

254.478

123

0.305002

3.70732

3.7378

gemini_gemini-2.0-flash

2025-05-27

428.324

102

0.304022

3.65244

3.60976

gemini_gemini-2.5-pro-preview-05-06

2025-05-27

1317.42

71

0.319577

2.45732

2.67683

gemini_gemini-2.5-flash-preview-05-20

2025-05-27

1042.03

108

0.32728

3.39024

3.46341

Thời gian Phản hồi Tổng (s): Thời gian tổng cộng mà mô hình đã sử dụng để tạo ra tất cả các đầu ra.

Số bài kiểm tra đã vượt qua: Số lượng bài kiểm tra đơn vị mà mô hình đã vượt qua trong quá trình đánh giá, trong tổng số 164 bài kiểm tra.

Điểm Trung bình: Điểm CodeBLEU trung bình, một chỉ số để đánh giá chất lượng tạo mã dựa trên cả độ chính xác cú pháp và ngữ nghĩa.

Điểm : Điểm đánh giá trung bình về tính hữu ích của đầu ra của mô hình theo đánh giá của một mô hình LLM.

  • 0: Đoạn mã hoàn toàn không hữu ích, không liên quan đến vấn đề.

  • 1: Đoạn mã hơi hữu ích, nó chứa thông tin liên quan đến vấn đề, nhưng dễ dàng hơn để viết giải pháp từ đầu.

  • 2: Đoạn mã có phần hữu ích, nó cần thay đổi đáng kể (so với kích thước của đoạn mã), nhưng vẫn hữu ích.

  • 3: Đoạn mã hữu ích, nhưng cần thay đổi một chút để giải quyết vấn đề.

  • 4: Đoạn mã rất hữu ích, nó giải quyết được vấn đề.

  • 0 (thất bại tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn sai và vô nghĩa.

  • 4 (vượt qua tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn đúng và có thể xử lý tất cả các trường hợp.

Điểm : Điểm trung bình về độ đúng chức năng của các đầu ra của mô hình, đánh giá mức độ mà các đầu ra đáp ứng các yêu cầu chức năng, được đánh giá bởi một mô hình LLM.

CodeBLEU
Sử dụng Trung bình
Đúng Chức năng Trung bình