Guide Hébergement Dify GPU 2026
Exécuter des LLM Locaux avec Dify
Hébergez Dify sur un serveur GPU et connectez-le à Ollama ou LocalAI pour exécuter Llama 3, Mistral et d'autres modèles open source en local — sans coûts par token et avec une confidentialité totale des données.
Pourquoi exécuter Dify sur un serveur GPU ?
Connecter Dify à un LLM hébergé localement via Ollama ou LocalAI supprime toute dépendance aux fournisseurs cloud d'IA. Voici ce que vous gagnez :
Aucun coût API
Payez uniquement le serveur GPU — pas par token. L'usage intensif devient bien moins cher.
Confidentialité des données
Les prompts et réponses ne quittent jamais votre infrastructure — essentiel pour les secteurs réglementés.
Modèles personnalisés
Exécutez des modèles fine-tunés ou spécialisés indisponibles via aucune API publique.
Sans limite de débit
Envoyez autant de requêtes que votre GPU peut en traiter — sans throttling ni erreurs de quota.
Comparatif des fournisseurs cloud GPU
Les prix sont des tarifs à la demande approximatifs début 2026. Les instances réservées et spot sont généralement moins chères.
| Fournisseur | GPU | VRAM | Prix/heure | Idéal pour |
|---|---|---|---|---|
| Lambda Labs | A10 | 24 GB | $0.75/hr | Développement |
| Vast.ai | RTX 4090 | 24 GB | ~$0.35/hr | Budget |
| RunPod | A100 | 80 GB | $1.99/hr | Production |
| CoreWeave | H100 | 80 GB | $2.50/hr | Enterprise |
| Hetzner GPU | A100 | 80 GB | 2.49 EUR/hr | Conformité EU |
Installer CUDA et NVIDIA Container Toolkit
Avant d'installer Dify ou Ollama, vous avez besoin des pilotes NVIDIA CUDA et du Container Toolkit pour que les conteneurs Docker puissent accéder au GPU.
Installer CUDA Toolkit 12.3
# Check if NVIDIA driver is already installed
nvidia-smi
# If not installed, add the NVIDIA repository
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# Install CUDA toolkit (includes drivers)
sudo apt install -y cuda-toolkit-12-3
# Reboot required after driver install
sudo reboot Vérifier le GPU et configurer Docker
# After reboot, verify GPU is detected
nvidia-smi
# Install NVIDIA Container Toolkit (for Docker GPU access)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker Après avoir exécuté nvidia-smi, vous devriez voir votre GPU listé avec sa version de pilote et sa VRAM. Si Docker peut désormais utiliser --gpus all, vous êtes prêt pour l'étape suivante.
Installer Ollama et télécharger les modèles LLM
Ollama est la façon la plus simple de servir des LLM open source sur votre GPU. Il détecte automatiquement CUDA et utilise le GPU pour l'inférence.
Installer Ollama et télécharger les modèles
# Install Ollama (one-line installer)
curl -fsSL https://ollama.com/install.sh | sh
# Verify Ollama is running
ollama list
# Pull LLM models
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b
# Test a model
ollama run llama3.1:8b "Hello, what can you do?" Lier Ollama à toutes les interfaces réseau
Par défaut, Ollama n'écoute que sur localhost. Pour le rendre accessible depuis les conteneurs Docker de Dify, vous devez le lier à 0.0.0.0 :
# Edit Ollama systemd service to bind to all interfaces
sudo systemctl edit ollama --force --full
# Find the [Service] section and add:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Apply changes
sudo systemctl daemon-reload
sudo systemctl restart ollama Configurer docker-compose.override.yaml
Créez ou modifiez docker-compose.override.yaml dans votre répertoire Dify pour que les conteneurs puissent résoudre host.docker.internal vers la machine hôte sous Linux :
services:
api:
extra_hosts:
- "host.docker.internal:host-gateway"
worker:
extra_hosts:
- "host.docker.internal:host-gateway" Note : Sur macOS et Windows, host.docker.internal se résout automatiquement. Sous Linux, l'entrée extra_hosts ci-dessus est requise.
Connecter Dify à Ollama
Avec Ollama en cours d'exécution et accessible, ajoutez-le comme fournisseur de modèles dans Dify :
- Ouvrez votre instance Dify et cliquez sur votre avatar en haut à droite.
- Allez dans Paramètres puis Fournisseur de modèles.
- Faites défiler pour trouver Ollama et cliquez sur Ajouter un modèle.
- Définissez l'URL de base sur
http://host.docker.internal:11434. - Entrez le Nom du modèle exactement tel qu'affiché par
ollama list(ex.llama3.1:8b). - Cliquez sur Enregistrer — Dify testera la connexion. Une coche verte confirme le succès.
- Le modèle est maintenant disponible dans toutes vos applications et workflows Dify.
Conseil : Répétez l'étape 5 pour chaque modèle téléchargé. Vous pouvez ajouter autant de modèles Ollama que vous le souhaitez — chacun apparaît comme un modèle sélectionnable distinct dans Dify.
LocalAI — Une alternative compatible OpenAI
Si vous préférez une surface d'API compatible OpenAI, LocalAI est une excellente alternative à Ollama. Il expose des endpoints comme /v1/chat/completions pour utiliser l'intégration OpenAI existante de Dify sans configuration supplémentaire.
Exécuter LocalAI avec Docker (GPU)
# Run LocalAI with Docker (GPU-enabled)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12 Une fois en cours d'exécution, configurez Dify avec Fournisseur de modèles : Compatible OpenAI-API, définissez l'URL de base sur http://host.docker.internal:8080/v1, et utilisez le nom du modèle chargé dans LocalAI. Aucune clé API n'est requise pour les déploiements locaux.
Recommandations de modèles par cas d'usage
Choisissez votre modèle en fonction de la VRAM disponible et du compromis qualité/vitesse dont votre application a besoin.
| Modèle | VRAM requise | Vitesse | Idéal pour |
|---|---|---|---|
llama3.1:8b | ~6 Go | Rapide | Usage général, chat |
mistral:7b | ~5 Go | Très rapide | Applications critiques en vitesse |
codellama:13b | ~10 Go | Moyen | Génération de code |
llama3.1:70b | ~40 Go | Lent | Sorties haute qualité |
mixtral:8x7b | ~26 Go | Moyen | Équilibre qualité/vitesse |
Référence rapide VRAM
Ces besoins sont approximatifs pour l'inférence en pleine précision (fp16). Les modèles quantifiés (Q4/Q5) peuvent réduire l'utilisation de VRAM de 30 à 50 %, permettant d'exécuter des modèles plus grands sur des GPU plus petits.