HuggingFace 통합

SkyDeck.ai를 허깅페이스 모델의 프런트 엔드로 사용하기.

HuggingFace에서 추론 엔드포인트를 배포한 후 다음과 같은 사용자 인터페이스를 볼 수 있어야 합니다:

이 페이지에서는 다음 정보가 필요합니다:

  • 엔드포인트 URL

  • 모델 저장소

  • API 토큰. 이는 호출 예시 코드 블럭에서 "API 토큰 추가" 체크박스를 선택함으로써 확인할 수 있습니다.

이 외에도 모델의 컨텍스트 창도 필요합니다. 이는 모델의 정보 페이지에서 찾을 수 있습니다.

이 정보를 수집한 후에는 아래의 예시와 같이 JSON 형식으로 변환합니다:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

다음으로, 이를 통합의 인증 필드에 붙여넣습니다.

인증이 성공적으로 검증되면, GenStudio의 모델 목록에 HuggingFace 모델이 나열된 것을 볼 수 있어야 합니다:

HuggingFace 엔드포인트의 제로로 스케일링

0으로 스케일링은 Inference 엔드포인트가 제공하는 동적 기능으로, 리소스 사용량과 비용을 최적화하는 데 설계되었습니다. 이는 기발하게 요청 패턴을 모니터링하고 유휴 시간 동안 복제본 수를 없앨 경우, 필요할 때만 리소스를 사용하도록 보장합니다.

그러나, 이렇게 하면 트래픽이 재개될 때 차가운 시작 기간이 있고, 주의해야 할 몇 가지 사항이 있습니다. 이 기능이 어떻게 작동하는지, 그 장점과 잠재적인 도전 과제에 대한 심도있는 연구를 원한다면, HuggingFace의 Autoscaling에 대한 가이드를 참조하십시오.

지원되는 모델

현재 저희는 text-generation 태그가 있는 모델에 대해서만 text-generation-inference 컨테이너로 배포 된 엔드포인트를 지원하고 있습니다. 저희는 지원되는 모델의 목록을 확장하기 위해 노력하고 있습니다.

Last updated