Báo cáo đánh giá LLM
Last updated
Last updated
o1-preview
2025-04-01
2681.95
134
0.314319
3.64634
3.7378
o1-mini
2025-04-01
959.029
128
0.33127
3.7378
3.79268
gpt-4o
2025-04-01
186.904
120
0.309362
3.73171
3.77439
gpt-4o-mini
2025-04-01
232.511
117
0.328017
3.65854
3.66463
claude-3-5-sonnet-20240620
2025-04-01
512.452
107
0.300656
3.64024
3.56098
claude-3-5-sonnet-20241022
2025-04-01
311.039
112
0.32159
3.68902
3.69512
gemini-1.5-pro
2025-04-01
518.565
99
0.33285
3.48171
3.4939
gemini-1.5-flash
2025-04-01
758.837
0
0.266851
0.829268
1.26829
Thời gian Phản hồi Tổng (s): Thời gian tổng cộng mà mô hình mất để tạo ra tất cả các đầu ra.
Số bài kiểm tra đã vượt qua: Số lượng bài kiểm tra đơn vị mà mô hình đã vượt qua trong quá trình đánh giá, trong tổng số 164 bài kiểm tra.
Điểm Trung bình: Điểm CodeBLEU trung bình, một chỉ số để đánh giá chất lượng tạo mã dựa trên cả độ chính xác cú pháp và ngữ nghĩa.
Điểm : Điểm đánh giá trung bình về tính hữu ích của đầu ra của mô hình được đánh giá bởi một mô hình LLM.
0: Đoạn mã hoàn toàn không hữu ích, không liên quan đến vấn đề.
1: Đoạn mã hơi hữu ích, nó chứa thông tin liên quan đến vấn đề, nhưng dễ dàng hơn để viết giải pháp từ đầu.
2: Đoạn mã có phần hữu ích, nó yêu cầu thay đổi đáng kể (so với kích thước của đoạn mã), nhưng vẫn hữu ích.
3: Đoạn mã hữu ích, nhưng cần được thay đổi một chút để giải quyết vấn đề.
4: Đoạn mã rất hữu ích, nó giải quyết được vấn đề.
Điểm : Điểm trung bình về độ chính xác chức năng của các đầu ra của mô hình, đánh giá mức độ mà các đầu ra đáp ứng các yêu cầu chức năng, được đánh giá bởi một mô hình LLM.
0 (thất bại tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn sai và vô nghĩa.
4 (vượt qua tất cả các bài kiểm tra có thể): Đoạn mã hoàn toàn đúng và có thể xử lý tất cả các trường hợp.