Integração HuggingFace

Usando SkyDeck.ai como a interface para seus modelos HuggingFace.

Após implantar seu endpoint de inferência no HuggingFace, você deve ver a seguinte interface de usuário:

Nesta página, você precisará das seguintes informações:

  • URL do Endpoint

  • Repositório do Modelo

  • Token da API. Você pode visualizar isso marcando a caixa "Adicionar token da API" no bloco de código de Exemplos de Chamada.

Além disso, você também precisará da janela de contexto do seu modelo. Isso pode ser encontrado na página de informações do modelo.

Após coletar essas informações, formate-as em JSON conforme mostrado no exemplo abaixo:

{
    "api_key":"seu_api_key",
    "endpoint": "seu_endpoint_api",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Em seguida, cole isso no campo Credenciais da sua integração.

Assim que a credencial for validada com sucesso, você deverá ver seu modelo HuggingFace listado na lista de modelos do GenStudio:

Escalando os Endpoints HuggingFace para Zero

A escala para 0 é um recurso dinâmico oferecido pelos Endpoints de Inferência, projetado para otimizar a utilização de recursos e custos. Ao monitorar inteligentemente os padrões de solicitação e reduzir o número de réplicas para zero durante os momentos ociosos, garante que você use os recursos apenas quando necessário.

No entanto, isso introduz um período de arranque a frio quando o tráfego é retomado, e há algumas considerações a se levar em conta. Para um olhar aprofundado sobre como essa característica funciona, seus benefícios e desafios potenciais, por favor, consulte o guia do HuggingFace sobre Autoscaling.

Modelos suportados

No momento, apenas suportamos endpoints para modelos com uma tag text-generation que são implantados como contêineres text-generation-inference. Estamos trabalhando para expandir nossa lista de modelos suportados.

Last updated