Integração com HuggingFace

Usando SkyDeck.ai como a interface para seus modelos HuggingFace.

Após implantar seu endpoint de inferência no HuggingFace, você deve ver a seguinte interface de usuário:

Nesta página, você precisará das seguintes informações:

URL do Endpoint
Repositório do Modelo
Token da API. Você pode visualizar isso marcando a caixa "Adicionar token da API" no bloco de código Exemplos de Chamada.

Além disso, você também precisará da janela de contexto do seu modelo. Isso pode ser encontrado na página de informações do modelo.

Após coletar essas informações, formate-as em JSON conforme mostrado no exemplo abaixo:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Em seguida, cole isso no campo de Credenciais da sua integração.

Uma vez que a credencial seja validada com sucesso, você deve ver seu modelo HuggingFace listado na lista de modelos do GenStudio:

Escalando os Endpoints HuggingFace para Zero

A escala para 0 é um recurso dinâmico oferecido pelos Endpoints de Inferência, projetado para otimizar a utilização de recursos e custos. Ao monitorar inteligentemente os padrões de solicitação e reduzir o número de réplicas para zero durante os momentos ociosos, garante que você use os recursos apenas quando necessário.

No entanto, isso introduz um período de arranque a frio quando o tráfego é retomado, e há algumas considerações a se levar em conta. Para um olhar aprofundado sobre como essa característica funciona, seus benefícios e desafios potenciais, por favor, consulte o guia do HuggingFace sobre Autoscaling.

Modelos suportados

No momento, suportamos apenas endpoints para modelos com a tag text-generation que estão implantados como contêineres text-generation-inference. Estamos trabalhando para expandir nossa lista de modelos suportados.

PreviousIntegração com Groq NextIntegração com Mistral

Last updated 27 days ago