HuggingFace 統合

HuggingFaceモデルのフロントエンドとしてSkyDeck.aiを使用します。

HuggingFaceに推論エンドポイントをデプロイした後、次のユーザーインターフェースが表示されるはずです：

このページでは、次の情報が必要です：

エンドポイントURL
モデルリポジトリ
APIトークン。このトークンは、Call Examplesコードブロックで「Add API token」ボックスをチェックすることで確認できます。

これに加えて、モデルのコンテキストウィンドウも必要です。これはモデルの情報ページで見つけることができます。

この情報を収集したら、以下の例のようにJSON形式にフォーマットします：

{
    "api_key":"your_api_key",
    "endpoint": "your_api_endpoint",
    "model_name": "meta-llama/Llama-2-7b-chat-hf",
    "context_window": 4096
}

次に、これを統合のCredentialフィールドに貼り付けます。

資格情報が正常に検証されると、GenStudioのモデルリストにあなたのHuggingFaceモデルが表示されるはずです：

HuggingFaceエンドポイントをゼロにスケーリング

ゼロにスケーリングすることは、Inference Endpointsが提供する動的な機能で、リソースの利用効率とコストを最適化することを目指しています。インテリジェントにリクエストパターンを監視し、アイドルタイム中にレプリカの数をゼロに減らすことで、必要なときだけリソースを使用することを保証します。

しかし、これはトラフィックが再開したときのコールドスタート期間を導入しますので、注意すべき点がいくつかあります。この機能の動作方法、利点、潜在的な課題について詳しくは、HuggingFaceのAutoscalingに関するガイドを参照してください。

サポートされているモデル

現時点では、text-generation タグが付けられたモデルのエンドポイントのみをサポートしており、これらは text-generation-inference コンテナとしてデプロイされています。サポートされているモデルのリストを拡張するために取り組んでいます。

前へGroq 統合次へMistral 統合

最終更新 3 か月前