Intégration HuggingFace

Utiliser SkyDeck.ai comme interface pour vos modèles HuggingFace.

Après avoir déployé votre point de terminaison d'inférence sur HuggingFace, vous devriez voir l'interface utilisateur suivante :

Sur cette page, vous aurez besoin des informations suivantes :

  • URL du point de terminaison

  • Dépôt du modèle

  • Token API. Vous pouvez le voir en cochant la case "Ajouter un token API" dans le bloc de code d'exemples d'appel.

En plus de cela, vous aurez également besoin de la fenêtre de contexte de votre modèle. Cela peut être trouvé sur la page d'information du modèle.

Après avoir collecté ces informations, formatez-les en JSON comme montré dans l'exemple ci-dessous :

{
    "api_key":"votre_api_key",
    "endpoint": "votre_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Ensuite, collez ceci dans le champ d'identification de votre intégration.

Une fois que l'identifiant est validé avec succès, vous devriez voir votre modèle HuggingFace répertorié dans la liste des modèles de GenStudio :

Mise à l'échelle des points de terminaison HuggingFace à zéro

La mise à l'échelle à 0 est une fonctionnalité dynamique offerte par les points de terminaison d'inférence, conçue pour optimiser l'utilisation des ressources et les coûts. En surveillant intelligemment les schémas de demande et en réduisant le nombre de répliques à aucune pendant les périodes d'inactivité, elle garantit que vous n'utilisez des ressources que lorsque c'est nécessaire.

Cependant, cela introduit une période de démarrage à froid lorsque le trafic reprend, et il y a quelques considérations à prendre en compte. Pour un aperçu détaillé de la façon dont cette fonctionnalité fonctionne, de ses avantages et des défis potentiels, veuillez vous référer au guide de HuggingFace sur l'Autoscaling.

Modèles pris en charge

Pour le moment, nous ne prenons en charge que les points de terminaison des modèles avec une étiquette text-generation qui sont déployés en tant que conteneurs text-generation-inference. Nous travaillons à élargir notre liste de modèles pris en charge.

Dernière mise à jour