HuggingFace 統合

HuggingFaceモデルのフロントエンドとしてSkyDeck.aiを使用します。

HuggingFaceに推論エンドポイントをデプロイした後、次のユーザーインターフェースが表示されるはずです:

huggingface deploy interface

このページでは、次の情報が必要です:

  • エンドポイントURL

  • モデルリポジトリ

  • APIトークン。このトークンは、Call Examplesコードブロックで「Add API token」ボックスをチェックすることで確認できます。

これに加えて、モデルのコンテキストウィンドウも必要です。これはモデルの情報ページで見つけることができます。

この情報を収集したら、以下の例のようにJSON形式にフォーマットします:

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

次に、これを統合のCredentialフィールドに貼り付けます。

credential field

資格情報が正常に検証されると、GenStudioのモデルリストにあなたのHuggingFaceモデルが表示されるはずです:

huggingface model as genstudio model

HuggingFaceエンドポイントをゼロにスケーリング

ゼロにスケーリングすることは、Inference Endpointsが提供する動的な機能で、リソースの利用効率とコストを最適化することを目指しています。インテリジェントにリクエストパターンを監視し、アイドルタイム中にレプリカの数をゼロに減らすことで、必要なときだけリソースを使用することを保証します。

しかし、これはトラフィックが再開したときのコールドスタート期間を導入しますので、注意すべき点がいくつかあります。この機能の動作方法、利点、潜在的な課題について詳しくは、HuggingFaceのAutoscalingに関するガイド を参照してください。

サポートされているモデル

現時点では、text-generation タグが付けられたモデルのエンドポイントのみをサポートしており、これらは text-generation-inference コンテナとしてデプロイされています。サポートされているモデルのリストを拡張するために取り組んでいます。

image (48)
LLaMA 2 はテキスト生成タグを持つモデルです
image (49)
デプロイ時にコンテナタイプとしてテキスト生成推論を選択してください

最終更新