Integración HuggingFace

Usando SkyDeck.ai como la interfaz para tus modelos de HuggingFace.

Después de desplegar tu endpoint de inferencia en HuggingFace, deberías ver la siguiente interfaz de usuario:

En esta página, necesitarás la siguiente información:

  • URL del endpoint

  • Repositorio del modelo

  • Token de API. Puedes ver esto marcando la casilla "Agregar token de API" en el bloque de código de Ejemplos de Llamada.

Además de esto, también necesitarás la ventana de contexto de tu modelo. Esto se puede encontrar en la página de información del modelo.

Después de recopilar esta información, formátala en JSON como se muestra en el ejemplo a continuación:

{
    "api_key":"tu_api_key",
    "endpoint": "tu_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

A continuación, pega esto en el campo de Credenciales de tu integración.

Una vez que la credencial se valide correctamente, deberías ver tu modelo de HuggingFace listado en la lista de modelos de GenStudio:

Escalar a Cero los Endpoints de HuggingFace

Escalar a 0 es una característica dinámica ofrecida por los Endpoints de Inferencia, diseñada para optimizar la utilización de recursos y los costos. Al monitorear inteligentemente los patrones de solicitud y reducir el número de réplicas a ninguna durante los períodos de inactividad, asegura que solo utilice recursos cuando sea necesario.

Sin embargo, esto introduce un período de inicio en frío cuando se reanuda el tráfico, y hay algunas consideraciones de las que hay que estar consciente. Para una mirada profunda de cómo funciona esta característica, sus beneficios y desafíos potenciales, por favor consulte la guía de HuggingFace sobre el Autoescalado.

Modelos soportados

Por el momento, solo admitimos endpoints para modelos con una etiqueta text-generation que están implementados como contenedores text-generation-inference. Estamos trabajando para expandir nuestra lista de modelos soportados.

Última actualización