HuggingFace 통합

HuggingFace 모델을 위한 프론트 엔드로 SkyDeck.ai 사용하기.

HuggingFace에 추론 엔드포인트를 배포한 후, 다음과 같은 사용자 인터페이스를 볼 수 있어야 합니다:

이 페이지에서 다음 정보를 필요로 합니다:

  • 엔드포인트 URL

  • 모델 저장소

  • API 토큰. 이 정보는 Call Examples 코드 블록에서 "Add API token" 박스를 체크하여 확인할 수 있습니다.

이외에도 모델의 컨텍스트 윈도우도 필요합니다. 이는 모델 정보 페이지에서 찾을 수 있습니다.

이 정보를 수집한 후, 아래의 예와 같이 JSON 형식으로 변환합니다:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

다음으로, 이 내용을 통합의 Credential 필드에 붙여넣습니다.

자격 증명이 성공적으로 검증되면, GenStudio의 모델 목록에 HuggingFace 모델이 나열되어 있어야 합니다:

HuggingFace 엔드포인트의 제로로 스케일링

0으로 스케일링은 Inference 엔드포인트가 제공하는 동적 기능으로, 리소스 사용량과 비용을 최적화하는 데 설계되었습니다. 이는 기발하게 요청 패턴을 모니터링하고 유휴 시간 동안 복제본 수를 없앨 경우, 필요할 때만 리소스를 사용하도록 보장합니다.

그러나, 이렇게 하면 트래픽이 재개될 때 차가운 시작 기간이 있고, 주의해야 할 몇 가지 사항이 있습니다. 이 기능이 어떻게 작동하는지, 그 장점과 잠재적인 도전 과제에 대한 심도있는 연구를 원한다면, HuggingFace의 Autoscaling에 대한 가이드를 참조하십시오.

지원되는 모델

현재 저희는 text-generation 태그가 있는 모델에 대해서만 text-generation-inference 컨테이너로 배포 된 엔드포인트를 지원하고 있습니다. 저희는 지원되는 모델의 목록을 확장하기 위해 노력하고 있습니다.

Last updated