Dify GPU-Hosting-Anleitung 2026
Lokale LLMs mit Dify ausführen
Hosten Sie Dify auf einem GPU-Server und verbinden Sie es mit Ollama oder LocalAI, um Llama 3, Mistral und andere Open-Source-Modelle lokal auszuführen — ohne Token-API-Kosten und mit vollständigem Datenschutz.
Warum Dify auf einem GPU-Server ausführen?
Die Verbindung von Dify mit einem lokal gehosteten LLM über Ollama oder LocalAI beseitigt vollständig die Abhängigkeit von Cloud-KI-Anbietern. Das gewinnen Sie dabei:
Keine API-Kosten
Zahlen Sie nur für den GPU-Server — nicht pro Token. Hochvolumen-Nutzung wird dramatisch günstiger.
Datenschutz
Prompts und Antworten verlassen Ihre Infrastruktur nie — unerlässlich für regulierte Branchen.
Benutzerdefinierte Modelle
Fein abgestimmte oder domänenspezifische Modelle ausführen, die über keine öffentliche API verfügbar sind.
Keine Rate-Limits
So viele Anfragen wie Ihre GPU verarbeiten kann — kein Drosseln, keine Kontingentfehler.
GPU-Cloud-Anbieter im Vergleich
Preise sind ungefähre On-Demand-Raten Anfang 2026. Reservierte und Spot-Instanzen sind in der Regel günstiger.
| Anbieter | GPU | VRAM | Preis/Std. | Beste Verwendung |
|---|---|---|---|---|
| Lambda Labs | A10 | 24 GB | $0,75/Std. | Entwicklung |
| Vast.ai | RTX 4090 | 24 GB | ~$0,35/Std. | Budget |
| RunPod | A100 | 80 GB | $1,99/Std. | Produktion |
| CoreWeave | H100 | 80 GB | $2,50/Std. | Enterprise |
| Hetzner GPU | A100 | 80 GB | 2,49 EUR/Std. | EU-Compliance |
CUDA und NVIDIA Container Toolkit installieren
Bevor Sie Dify oder Ollama installieren, benötigen Sie die NVIDIA-CUDA-Treiber und das Container Toolkit, damit Docker-Container auf die GPU zugreifen können.
CUDA Toolkit 12.3 installieren
# Prüfen ob NVIDIA-Treiber bereits installiert ist
nvidia-smi
# Falls nicht installiert, NVIDIA-Repository hinzufügen
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# CUDA Toolkit installieren (enthält Treiber)
sudo apt install -y cuda-toolkit-12-3
# Neustart nach Treiber-Installation erforderlich
sudo reboot GPU verifizieren und Docker konfigurieren
# Nach Neustart GPU-Erkennung prüfen
nvidia-smi
# NVIDIA Container Toolkit installieren (für Docker-GPU-Zugriff)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker Nach der Ausführung von nvidia-smi sollten Sie Ihre GPU mit Treiberversion und VRAM aufgelistet sehen. Wenn Docker nun --gpus all verwenden kann, sind Sie für den nächsten Schritt bereit.
Ollama installieren und LLM-Modelle herunterladen
Ollama ist der einfachste Weg, Open-Source-LLMs auf Ihrer GPU zu betreiben. Es erkennt CUDA automatisch und verwendet die GPU für die Inferenz.
Ollama installieren und Modelle herunterladen
# Ollama installieren (Einzeilen-Installer)
curl -fsSL https://ollama.com/install.sh | sh
# Prüfen ob Ollama läuft
ollama list
# LLM-Modelle herunterladen
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b
# Modell testen
ollama run llama3.1:8b "Hallo, was kannst du tun?" Ollama an alle Netzwerkinterfaces binden
Standardmäßig hört Ollama nur auf localhost. Um es von Difys Docker-Containern aus erreichbar zu machen, müssen Sie es an 0.0.0.0 binden:
# Ollama-Systemd-Dienst bearbeiten, um an alle Interfaces zu binden
sudo systemctl edit ollama --force --full
# Bereich [Service] finden und hinzufügen:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Änderungen anwenden
sudo systemctl daemon-reload
sudo systemctl restart ollama docker-compose.override.yaml konfigurieren
Erstellen oder bearbeiten Sie docker-compose.override.yaml in Ihrem Dify-Verzeichnis, damit Container host.docker.internal auf dem Linux-Host-Computer auflösen können:
services:
api:
extra_hosts:
- "host.docker.internal:host-gateway"
worker:
extra_hosts:
- "host.docker.internal:host-gateway" Hinweis: Auf macOS und Windows wird host.docker.internal automatisch aufgelöst. Auf Linux ist der obige extra_hosts-Eintrag erforderlich.
Dify mit Ollama verbinden
Mit laufendem und erreichbarem Ollama fügen Sie es als Modellanbieter in Dify hinzu:
- Öffnen Sie Ihre Dify-Instanz und klicken Sie auf Ihren Avatar in der oberen rechten Ecke.
- Gehen Sie zu Einstellungen dann Modellanbieter.
- Scrollen Sie nach unten, um Ollama zu finden, und klicken Sie auf Modell hinzufügen.
- Setzen Sie die Basis-URL auf
http://host.docker.internal:11434. - Geben Sie den Modellnamen genau so ein, wie er von
ollama listaufgelistet wird (z.B.llama3.1:8b). - Klicken Sie auf Speichern — Dify testet die Verbindung. Ein grünes Häkchen bestätigt den Erfolg.
- Das Modell ist jetzt in allen Ihren Dify-Apps und -Workflows verfügbar.
Tipp: Wiederholen Sie Schritt 5 für jedes heruntergeladene Modell. Sie können beliebig viele Ollama-Modelle hinzufügen — jedes erscheint als separates auswählbares Modell in Dify.
LocalAI — Eine OpenAI-kompatible Alternative
Wenn Sie eine OpenAI-kompatible API-Oberfläche bevorzugen, ist LocalAI eine ausgezeichnete Alternative zu Ollama. Es stellt Endpunkte wie /v1/chat/completions bereit, sodass Sie Difys vorhandene OpenAI-Integration ohne zusätzliche Konfiguration verwenden können.
LocalAI mit Docker ausführen (GPU)
# LocalAI mit Docker ausführen (GPU-aktiviert)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12 Sobald es läuft, konfigurieren Sie Dify mit Modellanbieter: OpenAI-API-kompatibel, setzen Sie die Basis-URL auf http://host.docker.internal:8080/v1 und verwenden Sie jeden Modellnamen, den Sie in LocalAI geladen haben. Für lokale Deployments wird kein API-Key benötigt.
Modellempfehlungen nach Anwendungsfall
Wählen Sie Ihr Modell basierend auf verfügbarem VRAM und dem Qualitäts-Geschwindigkeits-Kompromiss, den Ihre Anwendung benötigt.
| Modell | Benötigtes VRAM | Geschwindigkeit | Beste Verwendung |
|---|---|---|---|
llama3.1:8b | ~6 GB | Schnell | Allzweck, Chat |
mistral:7b | ~5 GB | Sehr schnell | Geschwindigkeitskritische Apps |
codellama:13b | ~10 GB | Mittel | Code-Generierung |
llama3.1:70b | ~40 GB | Langsam | Hochwertige Ausgaben |
mixtral:8x7b | ~26 GB | Mittel | Ausgewogene Qualität/Geschwindigkeit |
VRAM-Schnellreferenz
Dies sind ungefähre Anforderungen für Full-Precision-Inferenz (fp16). Quantisierte Modelle (Q4/Q5) können den VRAM-Bedarf um 30–50 % reduzieren, was es ermöglicht, größere Modelle auf kleineren GPUs auszuführen.