LLM 评估报告

模型

日期

总响应时间 (秒)

通过的测试

平均 CodeBLEU (0-1)

平均有用性评分 (0-4)

平均功能正确性评分 (0-4)

gpt-5

2025-10-01

2864.33

161

0.307856

3.84756

gpt-5-mini

2025-10-01

2529.73

160

0.309437

3.88415

3.92073

gpt-5-nano

2025-10-01

1681.91

152

0.305554

3.82927

3.85366

gpt-4.1

2025-10-01

252.895

156

0.337819

3.89634

3.92073

claude-opus-4-1-20250805

2025-10-01

761.552

161

0.35051

3.87195

3.92683

claude-opus-4-20250514

2025-10-01

705.543

159

0.347384

3.86585

3.93293

claude-sonnet-4-5-20250929

2025-10-01

632.707

162

0.335302

3.95122

3.96341

claude-sonnet-4-20250514

2025-10-01

578.039

161

0.321841

3.90854

3.95732

gemini-2.5-pro

2025-10-01

3375.77

141

0.365963

3.82927

3.90244

gemini-2.5-flash

2025-10-01

1324.6

151

0.331303

3.84756

3.92683

总响应时间 (秒)： 模型生成所有输出所花费的总时间。

通过的测试： 模型在评估期间通过的单元测试数量，总共164个测试。

平均 CodeBLEU：平均 CodeBLEU 分数，是评估代码生成质量的指标，基于语法和语义的正确性。

平均 有用性评分：模型输出的有用性平均评分，由 LLM 模型评定。

0：片段完全没有帮助，与问题无关。
1：片段稍微有帮助，包含与问题相关的信息，但从头开始编写解决方案更容易。
2：片段有点有帮助，需要进行重大更改（与片段的大小相比），但仍然有用。
3：片段有帮助，但需要稍微修改才能解决问题。
4：片段非常有帮助，能够解决问题。

平均 功能正确性评分：模型输出的功能正确性平均评分，评估输出满足功能要求的程度，由 LLM 模型评定。

0（未通过所有可能的测试）： 代码片段完全不正确且毫无意义。
4（通过所有可能的测试）： 代码片段完全正确，能够处理所有情况。

PreviousAI 文档 NextSkyDeck.ai LLM 准备文档

Last updated 18 days ago