Intégration HuggingFace

Utilisation de SkyDeck.ai comme interface pour vos modèles HuggingFace.

Après avoir déployé votre point final d'inférence sur HuggingFace, vous devriez voir l'interface utilisateur suivante :

Sur cette page, vous aurez besoin des informations suivantes :

  • URL du point d'accès

  • Dépôt de modèles

  • Jeton API. Vous pouvez le voir en cochant la case "Ajouter un jeton API" dans le bloc de code Exemples d'appels.

En plus de cela, vous aurez également besoin de la fenêtre de contexte de votre modèle. Elle peut être trouvée sur la page d'informations du modèle.

Après avoir collecté ces informations, formatez-les en JSON comme indiqué dans l'exemple ci-dessous :

{
    "api_key":"votre_cle_api",
    "endpoint": "votre_point_dacces_api",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Ensuite, collez cela dans le champ Credential de votre intégration.

Une fois que l'accréditation est validée avec succès, vous devriez voir votre modèle HuggingFace répertorié dans la liste des modèles de GenStudio :

Mise à l'échelle des points de terminaison HuggingFace à zéro

La mise à l'échelle à 0 est une fonctionnalité dynamique offerte par les points de terminaison d'inférence, conçue pour optimiser l'utilisation des ressources et les coûts. En surveillant intelligemment les schémas de demande et en réduisant le nombre de répliques à aucune pendant les périodes d'inactivité, elle garantit que vous n'utilisez des ressources que lorsque c'est nécessaire.

Cependant, cela introduit une période de démarrage à froid lorsque le trafic reprend, et il y a quelques considérations à prendre en compte. Pour un aperçu détaillé de la façon dont cette fonctionnalité fonctionne, de ses avantages et des défis potentiels, veuillez vous référer au guide de HuggingFace sur l'Autoscaling.

Modèles pris en charge

Pour le moment, nous ne prenons en charge que les points de terminaison des modèles avec une étiquette text-generation qui sont déployés en tant que conteneurs text-generation-inference. Nous travaillons à élargir notre liste de modèles pris en charge.

Dernière mise à jour