Integração HuggingFace

Usando SkyDeck.ai como a interface para seus modelos HuggingFace.

Depois de implantar seu ponto final de inferência no HuggingFace, você deverá ver a seguinte interface do usuário:

Nesta página, você precisará das seguintes informações:

  • URL do Endpoint

  • Repositório do Modelo

  • Token da API. Você pode visualizar isso marcando a caixa "Adicionar token da API" no bloco de código de Exemplos de Chamada.

Além disso, você também precisará da janela de contexto do seu modelo. Isso pode ser encontrado na página de informações do modelo.

Depois de coletar essas informações, formate-as em JSON, conforme mostrado no exemplo abaixo:

{
    "api_key":"sua_chave_de_api",
    "endpoint": "seu_endpoint_de_api",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Em seguida, cole isso no campo Credential da sua integração.

Uma vez que a credencial é validada com sucesso, você deve ver seu modelo HuggingFace listado na lista de modelos do GenStudio:

Escalando os Endpoints HuggingFace para Zero

A escala para 0 é um recurso dinâmico oferecido pelos Endpoints de Inferência, projetado para otimizar a utilização de recursos e custos. Ao monitorar inteligentemente os padrões de solicitação e reduzir o número de réplicas para zero durante os momentos ociosos, garante que você use os recursos apenas quando necessário.

No entanto, isso introduz um período de arranque a frio quando o tráfego é retomado, e há algumas considerações a se levar em conta. Para um olhar aprofundado sobre como essa característica funciona, seus benefícios e desafios potenciais, por favor, consulte o guia do HuggingFace sobre Autoscaling.

Modelos suportados

No momento, apenas suportamos endpoints para modelos com uma tag text-generation que são implantados como contêineres text-generation-inference. Estamos trabalhando para expandir nossa lista de modelos suportados.

Last updated