Integración HuggingFace

Usando SkyDeck.ai como interfaz para tus modelos HuggingFace.

Después de desplegar tu punto final de inferencia en HuggingFace, deberías ver la siguiente interfaz de usuario:

En esta página, necesitarás la siguiente información:

  • URL del punto final

  • Repositorio del modelo

  • Token de la API. Puedes ver esto marcando la casilla "Agregar token de API" en el bloque de código de Ejemplos de Llamada.

Además de estos, también necesitarás la ventana de contexto de tu modelo. Esto se puede encontrar en la página de información del modelo.

Después de recopilar esta información, formátala en JSON como se muestra en el ejemplo a continuación:

{
    "api_key":"tu_api_key",
    "endpoint": "tu_punto_final_api",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

A continuación, pega esto en el campo de Credenciales de tu integración.

Una vez que la credencial se haya validado correctamente, deberías ver tu modelo HuggingFace listado en la lista de modelos de GenStudio:

Escalar a Cero los Endpoints de HuggingFace

Escalar a 0 es una característica dinámica ofrecida por los Endpoints de Inferencia, diseñada para optimizar la utilización de recursos y los costos. Al monitorear inteligentemente los patrones de solicitud y reducir el número de réplicas a ninguna durante los períodos de inactividad, asegura que solo utilice recursos cuando sea necesario.

Sin embargo, esto introduce un período de inicio en frío cuando se reanuda el tráfico, y hay algunas consideraciones de las que hay que estar consciente. Para una mirada profunda de cómo funciona esta característica, sus beneficios y desafíos potenciales, por favor consulte la guía de HuggingFace sobre el Autoescalado.

Modelos soportados

Por el momento, solo admitimos endpoints para modelos con una etiqueta text-generation que están implementados como contenedores text-generation-inference. Estamos trabajando para expandir nuestra lista de modelos soportados.

Última actualización