Báo cáo đánh giá LLM

Mô hình
Ngày
Thời gian Phản hồi Tổng (s)
Số bài kiểm tra đã vượt qua
Điểm CodeBLEU Trung bình (0-1)
Điểm Sự hữu ích Trung bình (0-4)
Điểm Đúng chức năng Trung bình (0-4)

o1-preview

2025-01-04

1985.79

132

0.314551

3.55488

3.5061

o1-mini

2025-01-04

756.077

133

0.334664

3.72561

3.7561

gpt-4o

2025-01-04

208.449

126

0.323989

3.71951

3.7439

gpt-4o-mini

2025-01-04

214.231

119

0.342308

3.71951

3.7439

claude-3-5-sonnet-20240620

2025-01-04

264.711

116

0.302053

3.65244

3.64634

claude-3-5-sonnet-20241022

2025-01-04

257.303

113

0.320907

3.71341

3.64634

gemini-1.5-pro

2025-01-04

534.359

99

0.331803

3.53049

3.46341

gemini-1.5-flash

2025-01-04

793.248

0

0.262095

0.737805

0.878049

Thời gian Phản hồi Tổng (s): Tổng thời gian mà mô hình mất để tạo ra tất cả các đầu ra.

Số bài kiểm tra đã vượt qua: Số lượng bài kiểm tra đơn vị mà mô hình đã vượt qua trong quá trình đánh giá, trong tổng số 164 bài kiểm tra.

Điểm CodeBLEU Trung bình: Điểm CodeBLEU trung bình, một chỉ số để đánh giá chất lượng tạo mã dựa trên cả độ chính xác cú pháp và ngữ nghĩa.

Điểm Sự hữu ích Trung bình: Đánh giá trung bình về sự hữu ích của đầu ra mô hình được đánh giá bởi một mô hình LLM.

  • 0: Đoạn mã hoàn toàn không hữu ích, không liên quan đến vấn đề.

  • 1: Đoạn mã hơi hữu ích, nó chứa thông tin liên quan đến vấn đề, nhưng dễ hơn để viết giải pháp từ đầu.

  • 2: Đoạn mã có phần hữu ích, nó yêu cầu thay đổi đáng kể (so với kích thước của đoạn mã), nhưng vẫn hữu ích.

  • 3: Đoạn mã hữu ích, nhưng cần thay đổi một chút để giải quyết vấn đề.

  • 4: Đoạn mã rất hữu ích, nó giải quyết được vấn đề.

Điểm Đúng chức năng Trung bình: Điểm trung bình về độ đúng chức năng của các đầu ra của mô hình, đánh giá mức độ mà các đầu ra đáp ứng các yêu cầu chức năng, được đánh giá bởi một mô hình LLM.

  • 0 (thất bại tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn sai và vô nghĩa.

  • 4 (vượt qua tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn đúng và có thể xử lý tất cả các trường hợp.

Last updated