Intégration HuggingFace

Utiliser SkyDeck.ai comme interface pour vos modèles HuggingFace.

Après avoir déployé votre point de terminaison d'inférence sur HuggingFace, vous devriez voir l'interface utilisateur suivante :

interface de déploiement huggingface

Sur cette page, vous aurez besoin des informations suivantes :

  • URL du point de terminaison

  • Répertoire du modèle

  • Jeton API. Vous pouvez le voir en cochant la case "Ajouter un jeton API" dans le bloc de code Exemples d'appel.

En plus de cela, vous aurez également besoin de la fenêtre de contexte de votre modèle. Cela peut être trouvé sur la page d'information du modèle.

Après avoir collecté ces informations, formatez-les en JSON comme montré dans l'exemple ci-dessous :

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Ensuite, collez cela dans le champ d'identification de votre intégration.

champ d'identification

Une fois que l'identification est validée avec succès, vous devriez voir votre modèle HuggingFace répertorié dans la liste des modèles de GenStudio :

modèle huggingface en tant que modèle genstudio

Mise à l'échelle des points de terminaison HuggingFace à zéro

La mise à l'échelle à 0 est une fonctionnalité dynamique offerte par les points de terminaison d'inférence, conçue pour optimiser l'utilisation des ressources et les coûts. En surveillant intelligemment les schémas de demande et en réduisant le nombre de répliques à aucune pendant les périodes d'inactivité, elle garantit que vous n'utilisez des ressources que lorsque c'est nécessaire.

Cependant, cela introduit une période de démarrage à froid lorsque le trafic reprend, et il y a quelques considérations à prendre en compte. Pour un aperçu détaillé de la façon dont cette fonctionnalité fonctionne, de ses avantages et des défis potentiels, veuillez vous référer au guide de HuggingFace sur l'Autoscaling.

Modèles pris en charge

Pour le moment, nous ne prenons en charge que les points de terminaison pour les modèles avec un tag text-generation qui sont déployés en tant que conteneurs text-generation-inference. Nous travaillons à élargir notre liste de modèles pris en charge.

image (48)
LLaMA 2 est un modèle avec le tag Text Generation
image (49)
Assurez-vous de sélectionner Text Generation Inference comme type de conteneur lors du déploiement

Dernière mise à jour