LLM 評估報告
模型
日期
總回應時間 (秒)
通過測試數
平均 CodeBLEU (0-1)
平均有用性評分 (0-4)
平均功能正確性評分 (0-4)
Last updated
gpt-5.4
2026-03-18
371.302
151
0.30016
3.85976
3.88415
gpt-5
2026-03-18
3307.15
160
0.312013
3.71951
3.82927
gpt-5-mini
2026-03-18
2223.12
161
0.305418
3.79268
3.93293
claude-opus-4-6
2026-03-18
630.643
164
0.38829
3.87195
3.90854
claude-sonnet-4-6
2026-03-18
604.89
161
0.379059
3.85366
3.90854
claude-opus-4-1
2026-03-18
635.166
157
0.349491
3.85366
3.92683
claude-sonnet-4-5
2026-03-18
546.74
162
0.331766
3.89024
3.95732
claude-haiku-4-5
2026-03-18
280.497
154
0.317284
3.84756
3.92073
gemini-3.1-pro-preview
2026-03-18
3339.78
162
0.395161
3.73171
3.82317
gemini-3.1-flash-lite-preview
2026-03-18
176.493
148
0.370935
3.77439
3.87805
gemini-3-flash-preview
2026-03-18
2146.97
142
0.395257
3.59146
3.60366
gemini-2.5-pro
2026-03-18
2788.94
118
0.373488
3.2561
3.38415
gemini-2.5-flash
2026-03-18
952.543
148
0.338621
3.7439
3.83537
總回應時間 (秒): 模型生成所有輸出的總時間。
通過測試數: 模型在評估期間通過的單元測試數量,總共 164 個測試。
平均 CodeBLEU: 平均 CodeBLEU 分數,評估基於語法和語義正確性的代碼生成質量的指標。
平均 有用性評分: 模型輸出有用性的平均評分,由 LLM 模型評定。
0: 片段完全無幫助,與問題無關。
1: 片段稍微有幫助,包含與問題相關的信息,但從頭開始編寫解決方案更容易。
2: 片段有些有幫助,需要進行重大更改(與片段的大小相比),但仍然有用。
3: 片段有幫助,但需要稍微改變以解決問題。
4: 片段非常有幫助,解決了問題。
平均 功能正確性評分: 模型輸出功能正確性的平均分數,評估輸出滿足功能要求的程度,由 LLM 模型評定。
0(未通過所有可能的測試): 代碼片段完全錯誤且毫無意義。
4(通過所有可能的測試): 代碼片段完全正確,能處理所有情況。
Last updated