Mis à jour mars 2026 0 $ de coûts API

Guide Hébergement Dify GPU 2026
Exécuter des LLM Locaux avec Dify

Hébergez Dify sur un serveur GPU et connectez-le à Ollama ou LocalAI pour exécuter Llama 3, Mistral et d'autres modèles open source en local — sans coûts par token et avec une confidentialité totale des données.

Pourquoi exécuter Dify sur un serveur GPU ?

Connecter Dify à un LLM hébergé localement via Ollama ou LocalAI supprime toute dépendance aux fournisseurs cloud d'IA. Voici ce que vous gagnez :

💰

Aucun coût API

Payez uniquement le serveur GPU — pas par token. L'usage intensif devient bien moins cher.

🔒

Confidentialité des données

Les prompts et réponses ne quittent jamais votre infrastructure — essentiel pour les secteurs réglementés.

🧩

Modèles personnalisés

Exécutez des modèles fine-tunés ou spécialisés indisponibles via aucune API publique.

🚀

Sans limite de débit

Envoyez autant de requêtes que votre GPU peut en traiter — sans throttling ni erreurs de quota.

Comparatif des fournisseurs cloud GPU

Les prix sont des tarifs à la demande approximatifs début 2026. Les instances réservées et spot sont généralement moins chères.

Fournisseur	GPU	VRAM	Prix/heure	Idéal pour
Lambda Labs	A10	24 GB	$0.75/hr	Développement
Vast.ai	RTX 4090	24 GB	~$0.35/hr	Budget
RunPod	A100	80 GB	$1.99/hr	Production
CoreWeave	H100	80 GB	$2.50/hr	Enterprise
Hetzner GPU	A100	80 GB	2.49 EUR/hr	Conformité EU

Installer CUDA et NVIDIA Container Toolkit

Avant d'installer Dify ou Ollama, vous avez besoin des pilotes NVIDIA CUDA et du Container Toolkit pour que les conteneurs Docker puissent accéder au GPU.

Installer CUDA Toolkit 12.3

# Check if NVIDIA driver is already installed
nvidia-smi

# If not installed, add the NVIDIA repository
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Install CUDA toolkit (includes drivers)
sudo apt install -y cuda-toolkit-12-3

# Reboot required after driver install
sudo reboot

Vérifier le GPU et configurer Docker

# After reboot, verify GPU is detected
nvidia-smi

# Install NVIDIA Container Toolkit (for Docker GPU access)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Après avoir exécuté nvidia-smi, vous devriez voir votre GPU listé avec sa version de pilote et sa VRAM. Si Docker peut désormais utiliser --gpus all, vous êtes prêt pour l'étape suivante.

Installer Ollama et télécharger les modèles LLM

Ollama est la façon la plus simple de servir des LLM open source sur votre GPU. Il détecte automatiquement CUDA et utilise le GPU pour l'inférence.

Installer Ollama et télécharger les modèles

# Install Ollama (one-line installer)
curl -fsSL https://ollama.com/install.sh | sh

# Verify Ollama is running
ollama list

# Pull LLM models
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Test a model
ollama run llama3.1:8b "Hello, what can you do?"

Lier Ollama à toutes les interfaces réseau

Par défaut, Ollama n'écoute que sur localhost. Pour le rendre accessible depuis les conteneurs Docker de Dify, vous devez le lier à 0.0.0.0 :

# Edit Ollama systemd service to bind to all interfaces
sudo systemctl edit ollama --force --full

# Find the [Service] section and add:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Apply changes
sudo systemctl daemon-reload
sudo systemctl restart ollama

Configurer docker-compose.override.yaml

Créez ou modifiez docker-compose.override.yaml dans votre répertoire Dify pour que les conteneurs puissent résoudre host.docker.internal vers la machine hôte sous Linux :

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Note : Sur macOS et Windows, host.docker.internal se résout automatiquement. Sous Linux, l'entrée extra_hosts ci-dessus est requise.

Connecter Dify à Ollama

Avec Ollama en cours d'exécution et accessible, ajoutez-le comme fournisseur de modèles dans Dify :

Ouvrez votre instance Dify et cliquez sur votre avatar en haut à droite.
Allez dans Paramètres puis Fournisseur de modèles.
Faites défiler pour trouver Ollama et cliquez sur Ajouter un modèle.
Définissez l'URL de base sur http://host.docker.internal:11434.
Entrez le Nom du modèle exactement tel qu'affiché par ollama list (ex. llama3.1:8b).
Cliquez sur Enregistrer — Dify testera la connexion. Une coche verte confirme le succès.
Le modèle est maintenant disponible dans toutes vos applications et workflows Dify.

Conseil : Répétez l'étape 5 pour chaque modèle téléchargé. Vous pouvez ajouter autant de modèles Ollama que vous le souhaitez — chacun apparaît comme un modèle sélectionnable distinct dans Dify.

LocalAI — Une alternative compatible OpenAI

Si vous préférez une surface d'API compatible OpenAI, LocalAI est une excellente alternative à Ollama. Il expose des endpoints comme /v1/chat/completions pour utiliser l'intégration OpenAI existante de Dify sans configuration supplémentaire.

Exécuter LocalAI avec Docker (GPU)

# Run LocalAI with Docker (GPU-enabled)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Une fois en cours d'exécution, configurez Dify avec Fournisseur de modèles : Compatible OpenAI-API, définissez l'URL de base sur http://host.docker.internal:8080/v1, et utilisez le nom du modèle chargé dans LocalAI. Aucune clé API n'est requise pour les déploiements locaux.

Recommandations de modèles par cas d'usage

Choisissez votre modèle en fonction de la VRAM disponible et du compromis qualité/vitesse dont votre application a besoin.

Modèle	VRAM requise	Vitesse	Idéal pour
`llama3.1:8b`	~6 Go	Rapide	Usage général, chat
`mistral:7b`	~5 Go	Très rapide	Applications critiques en vitesse
`codellama:13b`	~10 Go	Moyen	Génération de code
`llama3.1:70b`	~40 Go	Lent	Sorties haute qualité
`mixtral:8x7b`	~26 Go	Moyen	Équilibre qualité/vitesse

Référence rapide VRAM

~6 Go

Modèles 7B

ex. Llama 3.1 8B, Mistral 7B

~10 Go

Modèles 13B

ex. CodeLlama 13B

~20 Go

Modèles 34B

ex. CodeLlama 34B

~40 Go

Modèles 70B

ex. Llama 3.1 70B

Ces besoins sont approximatifs pour l'inférence en pleine précision (fp16). Les modèles quantifiés (Q4/Q5) peuvent réduire l'utilisation de VRAM de 30 à 50 %, permettant d'exécuter des modèles plus grands sur des GPU plus petits.