HuggingFace 통합

HuggingFace 모델을 위한 프론트 엔드로 SkyDeck.ai 사용하기.

HuggingFace에서 추론 엔드포인트를 배포한 후, 다음 사용자 인터페이스를 볼 수 있어야 합니다:

이 페이지에서는 다음 정보를 필요로 합니다:

엔드포인트 URL
모델 리포지토리
API 토큰. 이는 Call Examples 코드 블록에서 "Add API token" 상자를 체크하여 확인할 수 있습니다.

이 외에도 모델의 컨텍스트 윈도우가 필요합니다. 이는 모델의 정보 페이지에서 찾을 수 있습니다.

이 정보를 수집한 후, 아래 예시와 같이 JSON 형식으로 포맷합니다:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

다음으로, 이를 통합의 Credential 필드에 붙여넣습니다.

자격 증명이 성공적으로 검증되면, GenStudio의 모델 목록에 HuggingFace 모델이 나열되는 것을 볼 수 있습니다:

HuggingFace 엔드포인트의 제로로 스케일링

0으로 스케일링은 Inference 엔드포인트가 제공하는 동적 기능으로, 리소스 사용량과 비용을 최적화하는 데 설계되었습니다. 이는 기발하게 요청 패턴을 모니터링하고 유휴 시간 동안 복제본 수를 없앨 경우, 필요할 때만 리소스를 사용하도록 보장합니다.

그러나, 이렇게 하면 트래픽이 재개될 때 차가운 시작 기간이 있고, 주의해야 할 몇 가지 사항이 있습니다. 이 기능이 어떻게 작동하는지, 그 장점과 잠재적인 도전 과제에 대한 심도있는 연구를 원한다면, HuggingFace의 Autoscaling에 대한 가이드를 참조하십시오.

지원되는 모델

현재 우리는 text-generation 태그가 있는 모델에 대해 text-generation-inference 컨테이너로 배포된 엔드포인트만 지원합니다. 지원되는 모델 목록을 확장하기 위해 작업 중입니다.

PreviousGroq 통합 NextMistral 통합

Last updated 3 months ago