SkyDeck.ai Docs
가입관리자 로그인문의하기
한국어
한국어
  • SkyDeck.ai
  • GenStudio 작업 공간
    • 대화
    • SkyDeck AI 헬퍼 앱
    • 문서 업로드
    • 공유 및 협업
    • 슬랙 동기화
    • 공개 스냅샷
    • 웹 브라우징
    • 도구
      • 페어 프로그래머
        • 사용 방법
        • 예시 – 파이썬 스크립트 지원
      • SQL 어시스턴트
        • 사용 방법
        • 예시 – 쿼리 디버깅
      • 법적 계약 검토
        • 사용 방법
        • 예시 – NDA 조항
      • 무엇이든 가르쳐 주세요
        • 사용 방법
        • 예시 – 프로그래밍 소개
      • 전략 컨설턴트
        • 사용 방법
        • 예시 – 직원 유지
      • 이미지 생성기
        • 사용 방법
        • 예시 – 겨울 원더랜드
    • 데이터 보안
      • 데이터 손실 방지
  • 제어 센터
    • 관리자 및 소유자 도구
    • 설정 가이드
      • 계정 설정
      • 통합 설정
        • 통합 지원
      • 보안 설정
        • 인증 (SSO)
      • 팀 구성
        • 새 그룹 추가
        • 그룹 제거
      • 도구 정리
        • 시스템 도구
        • 태그 할당
      • 회원 관리
        • 회원 추가
        • 파일 가져오기
        • 회원 초대
        • 회원 편집
    • 청구
      • 무료 체험
      • 크레딧 구매
      • 요금제 및 업그레이드
      • 모델 사용 가격
  • 통합
    • LLM 및 데이터베이스
      • Anthropic 통합
      • 데이터베이스 통합
      • Groq 통합
      • HuggingFace 통합
      • Mistral 통합
      • OpenAI 통합
      • Perplexity 통합
      • Together AI 통합
      • Vertex AI 통합
    • 앱 통합
      • Rememberizer 통합
      • 슬랙 통합
  • 개발자
    • 자신의 도구 개발
      • 도구를 위한 JSON 형식
      • LLM 도구를 위한 JSON 형식
      • 예시: 텍스트 기반 UI 생성기
      • 스마트 도구를 위한 JSON 형식
  • 사용 사례
    • 개인정보 보호정책 작성
  • 공지사항
    • 이용 약관
    • 개인정보 보호정책
    • 쿠키 공지
  • 릴리스
    • 2025년 5월 16일
    • 2025년 5월 9일
    • 2025년 5월 2일
    • 2025년 4월 25일
    • 2025년 4월 18일
    • 2025년 4월 11일
    • 2025년 4월 4일
    • 2025년 3월 28일
    • 2025년 3월 21일
    • 2025년 3월 14일
    • 2025년 3월 7일
    • 2025년 2월 28일
    • 2025년 2월 21일
    • 2025년 2월 14일
    • 2025년 2월 7일
    • 2025년 1월 31일
    • 2025년 1월 24일
    • 2025년 1월 17일
    • 2025년 1월 10일
    • 2025년 1월 3일
    • 2024년 12월 27일
    • 2024년 12월 20일
    • 2024년 12월 13일
    • 2024년 12월 6일
    • 2024년 11월 29일
    • 2024년 11월 22일
    • 2024년 11월 15일
    • 2024년 11월 8일
    • 2024년 11월 1일
    • 2024년 10월 25일
    • 2024년 10월 18일
    • 2024년 10월 11일
    • 2024년 10월 4일
    • 2024년 9월 27일
    • 2024년 9월 20일
    • 2024년 9월 13일
    • 2024년 9월 6일
    • 2024년 8월 23일
    • 2024년 8월 16일
    • 2024년 8월 9일
    • 2024년 8월 2일
    • 2024년 7월 26일
    • 2024년 7월 12일
    • 2024년 7월 5일
    • 2024년 6월 28일
    • 2024년 6월 21일
    • 2023년 11월 12일
    • 2023년 11월 6일
    • 2023년 10월 30일
    • 2023년 10월 23일
    • 2023년 10월 16일
    • 2023년 9월 18일
    • 2023년 9월 8일
  • 보안
    • SkyDeck.ai 보안 관행
    • 버그 바운티 프로그램
  • AI 문서
    • LLM 평가 보고서
    • SkyDeck.ai LLM 준비 문서
Powered by GitBook
On this page
  1. AI 문서

LLM 평가 보고서

PreviousAI 문서NextSkyDeck.ai LLM 준비 문서

Last updated 22 days ago

모델
날짜
총 응답 시간 (초)
통과한 테스트 수
평균 CodeBLEU (0-1)
평균 유용성 점수 (0-4)
평균 기능적 정확성 점수 (0-4)

o1-preview

2025-04-02

3264.19

134

0.320351

3.60976

3.59756

o1-mini

2025-04-02

964.977

129

0.336816

3.69512

3.75

gpt-4o

2025-04-02

228.668

128

0.310692

3.71951

3.67073

gpt-4o-mini

2025-04-02

248.679

116

0.321981

3.62805

3.61585

claude-3-5-sonnet-20240620

2025-04-02

276.394

108

0.30484

3.67683

3.66463

claude-3-5-sonnet-20241022

2025-04-02

291.706

112

0.328969

3.68902

3.70732

gemini-1.5-pro

2025-04-02

518.354

103

0.327295

3.46951

3.41463

gemini-1.5-flash

2025-04-02

763.949

0

0.261228

0.792683

1.32317

총 응답 시간 (초): 모델이 모든 출력을 생성하는 데 걸린 총 시간입니다.

통과한 테스트 수: 평가 중 모델이 통과한 단위 테스트의 수로, 총 164개의 테스트 중에서입니다.

평균 : 구문적 및 의미적 정확성을 기반으로 코드 생성 품질을 평가하는 지표인 평균 CodeBLEU 점수입니다.

평균 : LLM 모델에 의해 평가된 모델 출력의 유용성 평균 등급입니다.

  • 0: 스니펫이 전혀 도움이 되지 않으며, 문제와 관련이 없습니다.

  • 1: 스니펫이 약간 도움이 되며, 문제와 관련된 정보를 포함하지만, 처음부터 해결책을 작성하는 것이 더 쉽습니다.

  • 2: 스니펫이 다소 도움이 되며, 상당한 변경이 필요하지만(스니펫의 크기에 비해) 여전히 유용합니다.

  • 3: 스니펫이 도움이 되지만, 문제를 해결하기 위해 약간의 변경이 필요합니다.

  • 4: 스니펫이 매우 유용하며, 문제를 해결합니다.

평균 : LLM 모델에 의해 평가된 모델 출력의 기능적 요구 사항을 얼마나 잘 충족하는지를 평가하는 평균 점수입니다.

  • 0 (모든 가능한 테스트 실패): 코드 스니펫이 완전히 잘못되었고 의미가 없습니다.

  • 4 (모든 가능한 테스트 통과): 코드 스니펫이 완전히 정확하며 모든 경우를 처리할 수 있습니다.

CodeBLEU
유용성 점수
기능적 정확성 점수