LLM 評估報告
o1-preview
2024-12-21
2222.02
135
0.315387
3.60366
3.62195
o1-mini
2024-12-21
742.336
128
0.34076
3.70122
3.71341
gpt-4o
2024-12-21
328.26
124
0.321923
3.70732
3.68293
gpt-4o-mini
2024-12-21
209.742
122
0.335439
3.64024
3.63415
claude-3-5-sonnet-20240620
2024-12-21
295.78
117
0.299314
3.66463
3.63415
claude-3-5-sonnet-20241022
2024-12-21
263.51
114
0.330973
3.67073
3.62805
gemini-1.5-pro
2024-12-21
507.269
94
0.347441
3.45122
3.43293
gemini-1.5-flash
2024-12-21
768.506
1
0.263737
0.628049
0.835366
總回應時間 (秒): 模型生成所有輸出的總時間。
通過測試數: 模型在評估期間通過的單元測試數量,總共 164 個測試。
平均 CodeBLEU: 平均 CodeBLEU 分數,評估基於語法和語義正確性的代碼生成質量的指標。
平均 有用性評分: 模型輸出有用性的平均評分,由 LLM 模型評定。
0: 片段完全無幫助,與問題無關。
1: 片段稍微有幫助,包含與問題相關的信息,但從頭開始編寫解決方案更容易。
2: 片段有些有幫助,需要進行重大更改(與片段的大小相比),但仍然有用。
3: 片段有幫助,但需要稍微改動以解決問題。
4: 片段非常有幫助,能解決問題。
平均 功能正確性評分: 模型輸出功能正確性的平均分數,評估輸出滿足功能需求的程度,由 LLM 模型評定。
0(未通過所有可能的測試): 代碼片段完全不正確且毫無意義。
4(通過所有可能的測試): 代碼片段完全正確,能處理所有情況。
Last updated