# LLM 평가 보고서

| 모델                            | 날짜         | 총 응답 시간 (초) | 통과한 테스트 수 | 평균 CodeBLEU (0-1) | 평균 유용성 점수 (0-4) | 평균 기능적 정확성 점수 (0-4) |
| ----------------------------- | ---------- | ----------: | --------: | ----------------: | --------------: | ------------------: |
| gpt-5.4                       | 2026-03-18 |     371.302 |       151 |           0.30016 |         3.85976 |             3.88415 |
| gpt-5                         | 2026-03-18 |     3307.15 |       160 |          0.312013 |         3.71951 |             3.82927 |
| gpt-5-mini                    | 2026-03-18 |     2223.12 |       161 |          0.305418 |         3.79268 |             3.93293 |
| claude-opus-4-6               | 2026-03-18 |     630.643 |       164 |           0.38829 |         3.87195 |             3.90854 |
| claude-sonnet-4-6             | 2026-03-18 |      604.89 |       161 |          0.379059 |         3.85366 |             3.90854 |
| claude-opus-4-1               | 2026-03-18 |     635.166 |       157 |          0.349491 |         3.85366 |             3.92683 |
| claude-sonnet-4-5             | 2026-03-18 |      546.74 |       162 |          0.331766 |         3.89024 |             3.95732 |
| claude-haiku-4-5              | 2026-03-18 |     280.497 |       154 |          0.317284 |         3.84756 |             3.92073 |
| gemini-3.1-pro-preview        | 2026-03-18 |     3339.78 |       162 |          0.395161 |         3.73171 |             3.82317 |
| gemini-3.1-flash-lite-preview | 2026-03-18 |     176.493 |       148 |          0.370935 |         3.77439 |             3.87805 |
| gemini-3-flash-preview        | 2026-03-18 |     2146.97 |       142 |          0.395257 |         3.59146 |             3.60366 |
| gemini-2.5-pro                | 2026-03-18 |     2788.94 |       118 |          0.373488 |          3.2561 |             3.38415 |
| gemini-2.5-flash              | 2026-03-18 |     952.543 |       148 |          0.338621 |          3.7439 |             3.83537 |

**총 응답 시간 (초):** 모델이 모든 출력을 생성하는 데 걸린 총 시간입니다.

**통과한 테스트 수:** 평가 중 모델이 통과한 단위 테스트 수, 총 164개의 테스트 중.

**평균** [**CodeBLEU**](https://arxiv.org/abs/2009.10297)**:** 구문적 및 의미적 정확성을 기반으로 코드 생성 품질을 평가하는 메트릭인 평균 CodeBLEU 점수입니다.

**평균** [**유용성 점수**](https://arxiv.org/abs/2304.14317)**:** LLM 모델에 의해 평가된 모델 출력의 유용성 평균 점수입니다.

* **0:** 스니펫은 전혀 도움이 되지 않으며, 문제와 관련이 없습니다.
* **1:** 스니펫은 약간 도움이 되며, 문제와 관련된 정보를 포함하지만, 처음부터 해결책을 작성하는 것이 더 쉽습니다.
* **2:** 스니펫은 다소 도움이 되며, 상당한 변경이 필요하지만(스니펫의 크기와 비교할 때) 여전히 유용합니다.
* **3:** 스니펫은 도움이 되지만, 문제를 해결하기 위해 약간의 변경이 필요합니다.
* **4:** 스니펫은 매우 도움이 되며, 문제를 해결합니다.

**평균** [**기능적 정확성 점수**](https://arxiv.org/abs/2304.14317)**:** LLM 모델에 의해 평가된 모델 출력의 기능적 정확성 평균 점수로, 출력이 기능적 요구 사항을 얼마나 잘 충족하는지를 평가합니다.

* **0 (모든 가능한 테스트 실패):** 코드 스니펫은 완전히 잘못되었고 의미가 없습니다.
* **4 (모든 가능한 테스트 통과):** 코드 스니펫은 완전히 정확하며 모든 경우를 처리할 수 있습니다.
