# Integración de HuggingFace

Después de desplegar tu punto final de inferencia en HuggingFace, deberías ver la siguiente interfaz de usuario:

<figure><img src="/files/zay36DN9slMSOf6lwilQ" alt="interfaz de despliegue de huggingface"><figcaption></figcaption></figure>

En esta página, necesitarás la siguiente información:

* URL del punto final
* Repositorio del modelo
* Token de API. Puedes ver esto marcando la casilla "Agregar token de API" en el bloque de código de Ejemplos de Llamadas.

Además de esto, también necesitarás la ventana de contexto de tu modelo. Esto se puede encontrar en la página de información del modelo.

Después de recopilar esta información, formatea en JSON como se muestra en el ejemplo a continuación:

```json
{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}
```

A continuación, pega esto en el campo de Credenciales de tu integración.

<figure><img src="/files/tNiaZZYrVkUACSpZprkb" alt="campo de credenciales"><figcaption></figcaption></figure>

Una vez que la credencial se valide correctamente, deberías ver tu modelo de HuggingFace listado en la lista de modelos de GenStudio:

<figure><img src="/files/q642K6QSzIiKos0PgwNJ" alt="modelo de huggingface como modelo de genstudio"><figcaption></figcaption></figure>

### Escalar a Cero los Endpoints de HuggingFace

Escalar a 0 es una característica dinámica ofrecida por los Endpoints de Inferencia, diseñada para optimizar la utilización de recursos y los costos. Al monitorear inteligentemente los patrones de solicitud y reducir el número de réplicas a ninguna durante los períodos de inactividad, asegura que solo utilice recursos cuando sea necesario.

Sin embargo, esto introduce un período de inicio en frío cuando se reanuda el tráfico, y hay algunas consideraciones de las que hay que estar consciente. Para una mirada profunda de cómo funciona esta característica, sus beneficios y desafíos potenciales, por favor consulte la [guía de HuggingFace sobre el Autoescalado](https://huggingface.co/docs/inference-endpoints/autoscaling).

### Modelos soportados

En este momento, solo soportamos puntos finales para modelos con una etiqueta de `text-generation` que están desplegados como contenedores de `text-generation-inference`. Estamos trabajando para expandir nuestra lista de modelos soportados.

<figure><img src="/files/4mF5cH11nBwbZcSR6brS" alt="image (48)"><figcaption><p>LLaMA 2 es un modelo con etiqueta de Generación de Texto</p></figcaption></figure>

<figure><img src="/files/Fu4DWTNzKe0jsQWusowL" alt="image (49)"><figcaption><p>Asegúrate de seleccionar Inferencia de Generación de Texto como el tipo de contenedor durante el despliegue</p></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.skydeck.ai/es/integrations/llms-and-databases/huggingface-integration.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
