HuggingFace 統合

HuggingFaceモデルのフロントエンドとしてSkyDeck.aiを使用します。

HuggingFaceに推論エンドポイントをデプロイした後、以下のユーザーインターフェースが表示されるはずです:

このページでは、以下の情報が必要です:

  • エンドポイント URL

  • モデルリポジトリ

  • API トークン。これは、Call Examples コードブロックの「Add API token」ボックスをチェックすることで確認できます。

これらに加えて、モデルのコンテキストウィンドウも必要です。これは、モデルの情報ページで確認できます。

この情報を収集したら、以下の例のようにJSON形式にフォーマットします:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

次に、これを統合のCredentialフィールドに貼り付けます。

資格情報が正常に検証されると、GenStudioのモデルリストにHuggingFaceモデルが表示されるはずです:

HuggingFaceエンドポイントをゼロにスケーリング

ゼロにスケーリングすることは、Inference Endpointsが提供する動的な機能で、リソースの利用効率とコストを最適化することを目指しています。インテリジェントにリクエストパターンを監視し、アイドルタイム中にレプリカの数をゼロに減らすことで、必要なときだけリソースを使用することを保証します。

しかし、これはトラフィックが再開したときのコールドスタート期間を導入しますので、注意すべき点がいくつかあります。この機能の動作方法、利点、潜在的な課題について詳しくは、HuggingFaceのAutoscalingに関するガイド を参照してください。

サポートされているモデル

現時点では、text-generation-inferenceコンテナとしてデプロイされた、text-generationタグがついたモデルのエンドポイントのみをサポートしています。 私たちは、サポートされるモデルのリストの拡大に取り組んでいます。

最終更新