HuggingFace 集成
使用SkyDeck.ai作为您的HuggingFace模型的前端。
部署在 HuggingFace 上的推理端点后,您应该会看到以下用户界面:
在此页面上,您需要以下信息:
端点 URL
模型仓库
API 令牌。您可以通过检查 Call Examples 代码块中的 "Add API token" 复选框来查看此信息。
除此之外,您还需要您模型的上下文窗口。这可以在模型的信息页面上找到。
收集这些信息后,按照下面的示例将其格式化为 JSON:
接下来,将这个粘贴到您的集成的 Credential 字段。
一旦凭据成功验证,您应该会在 GenStudio 的模型列表中看到您的 HuggingFace 模型:
将HuggingFace端点缩减到零
缩减到0是Inference Endpoints提供的一种动态特性,旨在优化资源利用和成本。通过智能监控请求模式并在空闲时间将副本数量减少到零,确保您只在必要时使用资源。
然而,这确实引入了一个冷启动期,当流量恢复时,有几个需要注意的考虑因素。要深入了解这个特性的功能,其优点以及潜在挑战,请参考HuggingFace的自动缩放指南。
支持的模型
目前,我们只支持带有 text-generation
标签并部署为 text-generation-inference
容器的模型端点。我们正在努力扩大支持的模型列表。
Last updated