HuggingFace-Integration

Verwendung von SkyDeck.ai als Frontend für Ihre HuggingFace-Modelle.

Nachdem Sie Ihren Inferenz-Endpunkt auf HuggingFace bereitgestellt haben, sollten Sie die folgende Benutzeroberfläche sehen:

Auf dieser Seite benötigen Sie die folgenden Informationen:

  • Endpunkt-URL

  • Modell-Repository

  • API-Token. Sie können dies einsehen, indem Sie das Kästchen "API-Token hinzufügen" im Codeblock zu den Beispielaufrufen aktivieren.

Zusätzlich dazu benötigen Sie auch das Kontextfenster Ihres Modells. Dies finden Sie auf der Informationsseite des Modells.

Nachdem Sie diese Informationen gesammelt haben, formatieren Sie sie in JSON wie im folgenden Beispiel gezeigt:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Fügen Sie dies als Nächstes in das Feld für Anmeldeinformationen Ihrer Integration ein.

Sobald die Anmeldeinformationen erfolgreich validiert wurden, sollte Ihr HuggingFace-Modell in der Modellliste von GenStudio aufgeführt sein:

Skalierung von HuggingFace-Endpunkten auf Null

Die Skalierung auf 0 ist eine dynamische Funktion, die von Inference Endpoints angeboten wird, um die Ressourcennutzung und Kosten zu optimieren. Durch intelligentes Überwachen von Anforderungsmustern und Reduzierung der Anzahl von Replikaten auf keine während Leerlaufzeiten wird sichergestellt, dass Ressourcen nur dann genutzt werden, wenn sie notwendig sind.

Dies führt jedoch zu einer Kaltstartphase, wenn der Verkehr wieder aufgenommen wird, und es gibt einige Überlegungen, die zu bedenken sind. Für einen detaillierten Blick auf die Funktionsweise dieser Funktion, ihre Vorteile und potenzielle Herausforderungen, verweisen Sie bitte auf den Leitfaden von HuggingFace zum Autoscaling.

Unterstützte Modelle

Momentan unterstützen wir nur Endpunkte für Modelle mit dem text-generation Tag, die als text-generation-inference Container eingesetzt werden. Wir arbeiten daran, unsere Liste der unterstützten Modelle zu erweitern.

LLaMA 2 ist ein Modell mit Text Generierung Tag
Stellen Sie sicher, dass Sie bei der Bereitstellung Text Generierung Inferenz als Containertyp auswählen

Last updated