LLM 评估报告
模型 | 日期 | 总响应时间 (秒) | 通过测试数量 | 平均 CodeBLEU (0-1) | 平均有用性评分 (0-4) | 平均功能正确性评分 (0-4) |
---|---|---|---|---|---|---|
o1-preview | 2024-11-20 | 2006 | 131 | 0.316933 | 3.60366 | 3.64024 |
o1-mini | 2024-11-20 | 680.368 | 133 | 0.342896 | 3.68293 | 3.7561 |
gpt-4o | 2024-11-20 | 354.689 | 126 | 0.322102 | 3.7378 | 3.75 |
gpt-4o-mini | 2024-11-20 | 201.423 | 112 | 0.33042 | 3.67073 | 3.72561 |
claude-3-5-sonnet-20240620 | 2024-11-20 | 318.568 | 111 | 0.306173 | 3.66463 | 3.64024 |
claude-3-5-sonnet-20241022 | 2024-11-20 | 327.833 | 109 | 0.327235 | 3.65854 | 3.64634 |
gemini-1.5-pro | 2024-11-20 | 516.921 | 92 | 0.333394 | 3.5061 | 3.5122 |
gemini-1.5-flash | 2024-11-20 | 759.693 | 2 | 0.270065 | 0.670732 | 0.829268 |
总响应时间 (秒): 模型生成所有输出所花费的总时间。
通过测试数量: 模型在评估期间通过的单元测试数量,总共 164 个测试。
平均 CodeBLEU: 平均 CodeBLEU 分数,是评估代码生成质量的指标,基于语法和语义的正确性。
平均 有用性评分: 模型输出的有用性平均评分,由 LLM 模型进行评分。
0: 片段完全没有帮助,与问题无关。
1: 片段稍微有帮助,包含与问题相关的信息,但从头编写解决方案更容易。
2: 片段有些有帮助,需要进行重大更改(与片段的大小相比),但仍然有用。
3: 片段有帮助,但需要稍微修改以解决问题。
4: 片段非常有帮助,解决了问题。
平均 功能正确性评分: 模型输出的功能正确性的平均评分,评估输出满足功能要求的程度,由 LLM 模型进行评分。
0(未通过所有可能的测试): 代码片段完全错误且毫无意义。
4(通过所有可能的测试): 代码片段完全正确,能够处理所有情况。
Last updated