HuggingFaceのインテグレーション

SkyDeck.aiをあなたのHuggingFaceモデルのフロントエンドとして使う方法。

HuggingFace上であなたの推論エンドポイントをデプロイした後、以下のようなユーザーインターフェースが表示されるはずです:

このページでは、以下の情報が必要になります:

  • エンドポイントのURL

  • モデルリポジトリ

  • APIトークン。これは「APIトークンを追加」のボックスをチェックすることで表示されます。

これらに加えて、モデルのコンテキストウィンドウも必要です。これはモデルの情報ページで見つけることができます。

この情報を収集した後、以下の例のようにJSONにフォーマットします:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

次に、これをあなたの統合のCredentialフィールドに貼り付けます。

クレデンシャルが正常に検証されると、HuggingFaceのモデルがGenStudioのモデルリストに表示されるはずです:

HuggingFaceエンドポイントをゼロにスケーリング

ゼロにスケーリングすることは、Inference Endpointsが提供する動的な機能で、リソースの利用効率とコストを最適化することを目指しています。インテリジェントにリクエストパターンを監視し、アイドルタイム中にレプリカの数をゼロに減らすことで、必要なときだけリソースを使用することを保証します。

しかし、これはトラフィックが再開したときのコールドスタート期間を導入しますので、注意すべき点がいくつかあります。この機能の動作方法、利点、潜在的な課題について詳しくは、HuggingFaceのAutoscalingに関するガイド を参照してください。

サポートされているモデル

現時点では、text-generation-inferenceコンテナとしてデプロイされた、text-generationタグがついたモデルのエンドポイントのみをサポートしています。 私たちは、サポートされるモデルのリストの拡大に取り組んでいます。

最終更新