> For the complete documentation index, see [llms.txt](https://docs.skydeck.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.skydeck.ai/de/integrations/llms-and-databases/huggingface-integration.md).

# HuggingFace-Integration

Nachdem Sie Ihren Inferenz-Endpunkt auf HuggingFace bereitgestellt haben, sollten Sie die folgende Benutzeroberfläche sehen:

<figure><img src="/files/7ZJemDuGdKUJOscX9NyT" alt="huggingface deploy interface"><figcaption></figcaption></figure>

Auf dieser Seite benötigen Sie die folgenden Informationen:

* Endpunkt-URL
* Modell-Repository
* API-Token. Sie können dies sehen, indem Sie das Kästchen "API-Token hinzufügen" im Codeblock der Beispielaufrufe aktivieren.

Zusätzlich dazu benötigen Sie auch das Kontextfenster Ihres Modells. Dies finden Sie auf der Informationsseite des Modells.

Nachdem Sie diese Informationen gesammelt haben, formatieren Sie sie in JSON wie im folgenden Beispiel:

```json
{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}
```

Fügen Sie dies als Nächstes in das Feld für Anmeldeinformationen Ihrer Integration ein.

<figure><img src="/files/hv4W8jnkRcBTfU2bvsFF" alt="credential field"><figcaption></figcaption></figure>

Sobald die Anmeldeinformationen erfolgreich validiert wurden, sollten Sie Ihr HuggingFace-Modell in der Modellliste von GenStudio aufgeführt sehen:

<figure><img src="/files/qyp47Qdv1DfFdiMid6d7" alt="huggingface model as genstudio model"><figcaption></figcaption></figure>

### Skalierung von HuggingFace-Endpunkten auf Null

Die Skalierung auf 0 ist eine dynamische Funktion, die von Inference Endpoints angeboten wird, um die Ressourcennutzung und Kosten zu optimieren. Durch intelligentes Überwachen von Anforderungsmustern und Reduzierung der Anzahl von Replikaten auf keine während Leerlaufzeiten wird sichergestellt, dass Ressourcen nur dann genutzt werden, wenn sie notwendig sind.

Dies führt jedoch zu einer Kaltstartphase, wenn der Verkehr wieder aufgenommen wird, und es gibt einige Überlegungen, die zu bedenken sind. Für einen detaillierten Blick auf die Funktionsweise dieser Funktion, ihre Vorteile und potenzielle Herausforderungen, verweisen Sie bitte auf den [Leitfaden von HuggingFace zum Autoscaling](https://huggingface.co/docs/inference-endpoints/autoscaling).

### Unterstützte Modelle

Im Moment unterstützen wir nur Endpunkte für Modelle mit einem `text-generation` Tag, die als `text-generation-inference` Container bereitgestellt werden. Wir arbeiten daran, unsere Liste der unterstützten Modelle zu erweitern.

<figure><img src="/files/e5SD2PJm0Kcy5IeCxSkQ" alt="image (48)"><figcaption><p>LLaMA 2 ist ein Modell mit dem Tag Text Generation</p></figcaption></figure>

<figure><img src="/files/jTAdplMWhfjrBpBWpZt4" alt="image (49)"><figcaption><p>Stellen Sie sicher, dass Sie während der Bereitstellung Text Generation Inference als Container-Typ auswählen</p></figcaption></figure>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.skydeck.ai/de/integrations/llms-and-databases/huggingface-integration.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
