HuggingFace 集成

使用SkyDeck.ai作为您的HuggingFace模型的前端。

部署在 HuggingFace 上的推理端点后，您应该会看到以下用户界面：

在此页面上，您需要以下信息：

除此之外，您还需要您模型的上下文窗口。这可以在模型的信息页面上找到。

收集这些信息后，按照下面的示例将其格式化为 JSON：

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

接下来，将这个粘贴到您的集成的 Credential 字段。

一旦凭据成功验证，您应该会在 GenStudio 的模型列表中看到您的 HuggingFace 模型：

缩减到0是Inference Endpoints提供的一种动态特性，旨在优化资源利用和成本。通过智能监控请求模式并在空闲时间将副本数量减少到零，确保您只在必要时使用资源。

然而，这确实引入了一个冷启动期，当流量恢复时，有几个需要注意的考虑因素。要深入了解这个特性的功能，其优点以及潜在挑战，请参考HuggingFace的自动缩放指南。

目前，我们只支持带有 text-generation 标签并部署为 text-generation-inference 容器的模型端点。我们正在努力扩大支持的模型列表。

Last updated 9 months ago