Integração HuggingFace

Usando SkyDeck.ai como a interface para seus modelos HuggingFace.

Depois de implantar seu ponto final de inferência no HuggingFace, você deverá ver a seguinte interface do usuário:

Nesta página, você precisará das seguintes informações:

URL do Endpoint
Repositório do Modelo
Token da API. Você pode visualizar isso marcando a caixa "Adicionar token da API" no bloco de código de Exemplos de Chamada.

Além disso, você também precisará da janela de contexto do seu modelo. Isso pode ser encontrado na página de informações do modelo.

Depois de coletar essas informações, formate-as em JSON, conforme mostrado no exemplo abaixo:

{
    "api_key":"sua_chave_de_api",
    "endpoint": "seu_endpoint_de_api",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

Em seguida, cole isso no campo Credential da sua integração.

Uma vez que a credencial é validada com sucesso, você deve ver seu modelo HuggingFace listado na lista de modelos do GenStudio:

Escalando os Endpoints HuggingFace para Zero

A escala para 0 é um recurso dinâmico oferecido pelos Endpoints de Inferência, projetado para otimizar a utilização de recursos e custos. Ao monitorar inteligentemente os padrões de solicitação e reduzir o número de réplicas para zero durante os momentos ociosos, garante que você use os recursos apenas quando necessário.

No entanto, isso introduz um período de arranque a frio quando o tráfego é retomado, e há algumas considerações a se levar em conta. Para um olhar aprofundado sobre como essa característica funciona, seus benefícios e desafios potenciais, por favor, consulte o guia do HuggingFace sobre Autoscaling.

Modelos suportados

No momento, apenas suportamos endpoints para modelos com uma tag text-generation que são implantados como contêineres text-generation-inference. Estamos trabalhando para expandir nossa lista de modelos suportados.

PreviousIntegração de Banco de Dados NextIntegração Together AI

Last updated 10 months ago