LLM 评估报告
模型 | 日期 | 总响应时间 (s) | 通过测试 | 平均 CodeBLEU (0-1) | 平均有用性评分 (0-4) | 平均功能正确性评分 (0-4) |
---|---|---|---|---|---|---|
gpt-4o-mini | 2024-10-18 | 180.098 | 113 | 0.331988 | 3.66463 | 3.65854 |
gemini-1.5-pro | 2024-10-18 | 533.694 | 104 | 0.338663 | 3.55488 | 3.59756 |
claude-3-5-sonnet-20240620 | 2024-10-18 | 339.244 | 112 | 0.300819 | 3.68293 | 3.65854 |
gpt-4o | 2024-10-18 | 201.997 | 128 | 0.314057 | 3.75 | 3.71951 |
o1-mini | 2024-10-18 | 773.989 | 130 | 0.335063 | 3.71951 | 3.71951 |
o1-preview | 2024-10-18 | 2207.5 | 127 | 0.322271 | 3.60366 | 3.60976 |
claude-3-opus-20240229 | 2024-10-18 | 1056.03 | 114 | 0.322514 | 3.7439 | 3.67683 |
总响应时间 (s): 模型生成所有输出所花费的总时间。
通过测试: 模型在评估期间通过的单元测试数量,总共 164 个测试。
平均 CodeBLEU: 平均 CodeBLEU 分数,是评估代码生成质量的指标,基于语法和语义的正确性。
平均 有用性评分: LLM 模型对模型输出有用性的平均评分。
0: 代码片段完全没有帮助,与问题无关。
1: 代码片段稍微有帮助,包含与问题相关的信息,但从头编写解决方案更容易。
2: 代码片段有些有帮助,需要进行重大更改(与代码片段的大小相比),但仍然有用。
3: 代码片段有帮助,但需要稍微修改以解决问题。
4: 代码片段非常有帮助,解决了问题。
平均 功能正确性评分: 模型输出的功能正确性的平均评分,评估输出满足功能要求的程度,由 LLM 模型评分。
0 (未通过所有可能的测试): 代码片段完全错误且毫无意义。
4 (通过所有可能的测试): 代码片段完全正确,能够处理所有情况。
Last updated