Aktualisiert März 2026 $0 API-Kosten

Dify GPU-Hosting-Anleitung 2026
Lokale LLMs mit Dify ausführen

Hosten Sie Dify auf einem GPU-Server und verbinden Sie es mit Ollama oder LocalAI, um Llama 3, Mistral und andere Open-Source-Modelle lokal auszuführen — ohne Token-API-Kosten und mit vollständigem Datenschutz.

Warum Dify auf einem GPU-Server ausführen?

Die Verbindung von Dify mit einem lokal gehosteten LLM über Ollama oder LocalAI beseitigt vollständig die Abhängigkeit von Cloud-KI-Anbietern. Das gewinnen Sie dabei:

💰

Keine API-Kosten

Zahlen Sie nur für den GPU-Server — nicht pro Token. Hochvolumen-Nutzung wird dramatisch günstiger.

🔒

Datenschutz

Prompts und Antworten verlassen Ihre Infrastruktur nie — unerlässlich für regulierte Branchen.

🧩

Benutzerdefinierte Modelle

Fein abgestimmte oder domänenspezifische Modelle ausführen, die über keine öffentliche API verfügbar sind.

🚀

Keine Rate-Limits

So viele Anfragen wie Ihre GPU verarbeiten kann — kein Drosseln, keine Kontingentfehler.

GPU-Cloud-Anbieter im Vergleich

Preise sind ungefähre On-Demand-Raten Anfang 2026. Reservierte und Spot-Instanzen sind in der Regel günstiger.

Anbieter	GPU	VRAM	Preis/Std.	Beste Verwendung
Lambda Labs	A10	24 GB	$0,75/Std.	Entwicklung
Vast.ai	RTX 4090	24 GB	~$0,35/Std.	Budget
RunPod	A100	80 GB	$1,99/Std.	Produktion
CoreWeave	H100	80 GB	$2,50/Std.	Enterprise
Hetzner GPU	A100	80 GB	2,49 EUR/Std.	EU-Compliance

CUDA und NVIDIA Container Toolkit installieren

Bevor Sie Dify oder Ollama installieren, benötigen Sie die NVIDIA-CUDA-Treiber und das Container Toolkit, damit Docker-Container auf die GPU zugreifen können.

CUDA Toolkit 12.3 installieren

# Prüfen ob NVIDIA-Treiber bereits installiert ist
nvidia-smi

# Falls nicht installiert, NVIDIA-Repository hinzufügen
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# CUDA Toolkit installieren (enthält Treiber)
sudo apt install -y cuda-toolkit-12-3

# Neustart nach Treiber-Installation erforderlich
sudo reboot

GPU verifizieren und Docker konfigurieren

# Nach Neustart GPU-Erkennung prüfen
nvidia-smi

# NVIDIA Container Toolkit installieren (für Docker-GPU-Zugriff)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Nach der Ausführung von nvidia-smi sollten Sie Ihre GPU mit Treiberversion und VRAM aufgelistet sehen. Wenn Docker nun --gpus all verwenden kann, sind Sie für den nächsten Schritt bereit.

Ollama installieren und LLM-Modelle herunterladen

Ollama ist der einfachste Weg, Open-Source-LLMs auf Ihrer GPU zu betreiben. Es erkennt CUDA automatisch und verwendet die GPU für die Inferenz.

Ollama installieren und Modelle herunterladen

# Ollama installieren (Einzeilen-Installer)
curl -fsSL https://ollama.com/install.sh | sh

# Prüfen ob Ollama läuft
ollama list

# LLM-Modelle herunterladen
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Modell testen
ollama run llama3.1:8b "Hallo, was kannst du tun?"

Ollama an alle Netzwerkinterfaces binden

Standardmäßig hört Ollama nur auf localhost. Um es von Difys Docker-Containern aus erreichbar zu machen, müssen Sie es an 0.0.0.0 binden:

# Ollama-Systemd-Dienst bearbeiten, um an alle Interfaces zu binden
sudo systemctl edit ollama --force --full

# Bereich [Service] finden und hinzufügen:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Änderungen anwenden
sudo systemctl daemon-reload
sudo systemctl restart ollama

docker-compose.override.yaml konfigurieren

Erstellen oder bearbeiten Sie docker-compose.override.yaml in Ihrem Dify-Verzeichnis, damit Container host.docker.internal auf dem Linux-Host-Computer auflösen können:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Hinweis: Auf macOS und Windows wird host.docker.internal automatisch aufgelöst. Auf Linux ist der obige extra_hosts-Eintrag erforderlich.

Dify mit Ollama verbinden

Mit laufendem und erreichbarem Ollama fügen Sie es als Modellanbieter in Dify hinzu:

Öffnen Sie Ihre Dify-Instanz und klicken Sie auf Ihren Avatar in der oberen rechten Ecke.
Gehen Sie zu Einstellungen dann Modellanbieter.
Scrollen Sie nach unten, um Ollama zu finden, und klicken Sie auf Modell hinzufügen.
Setzen Sie die Basis-URL auf http://host.docker.internal:11434.
Geben Sie den Modellnamen genau so ein, wie er von ollama list aufgelistet wird (z.B. llama3.1:8b).
Klicken Sie auf Speichern — Dify testet die Verbindung. Ein grünes Häkchen bestätigt den Erfolg.
Das Modell ist jetzt in allen Ihren Dify-Apps und -Workflows verfügbar.

Tipp: Wiederholen Sie Schritt 5 für jedes heruntergeladene Modell. Sie können beliebig viele Ollama-Modelle hinzufügen — jedes erscheint als separates auswählbares Modell in Dify.

LocalAI — Eine OpenAI-kompatible Alternative

Wenn Sie eine OpenAI-kompatible API-Oberfläche bevorzugen, ist LocalAI eine ausgezeichnete Alternative zu Ollama. Es stellt Endpunkte wie /v1/chat/completions bereit, sodass Sie Difys vorhandene OpenAI-Integration ohne zusätzliche Konfiguration verwenden können.

LocalAI mit Docker ausführen (GPU)

# LocalAI mit Docker ausführen (GPU-aktiviert)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Sobald es läuft, konfigurieren Sie Dify mit Modellanbieter: OpenAI-API-kompatibel, setzen Sie die Basis-URL auf http://host.docker.internal:8080/v1 und verwenden Sie jeden Modellnamen, den Sie in LocalAI geladen haben. Für lokale Deployments wird kein API-Key benötigt.

Modellempfehlungen nach Anwendungsfall

Wählen Sie Ihr Modell basierend auf verfügbarem VRAM und dem Qualitäts-Geschwindigkeits-Kompromiss, den Ihre Anwendung benötigt.

Modell	Benötigtes VRAM	Geschwindigkeit	Beste Verwendung
`llama3.1:8b`	~6 GB	Schnell	Allzweck, Chat
`mistral:7b`	~5 GB	Sehr schnell	Geschwindigkeitskritische Apps
`codellama:13b`	~10 GB	Mittel	Code-Generierung
`llama3.1:70b`	~40 GB	Langsam	Hochwertige Ausgaben
`mixtral:8x7b`	~26 GB	Mittel	Ausgewogene Qualität/Geschwindigkeit

VRAM-Schnellreferenz

~6 GB

7B-Modelle

z.B. Llama 3.1 8B, Mistral 7B

~10 GB

13B-Modelle

z.B. CodeLlama 13B

~20 GB

34B-Modelle

z.B. CodeLlama 34B

~40 GB

70B-Modelle

z.B. Llama 3.1 70B

Dies sind ungefähre Anforderungen für Full-Precision-Inferenz (fp16). Quantisierte Modelle (Q4/Q5) können den VRAM-Bedarf um 30–50 % reduzieren, was es ermöglicht, größere Modelle auf kleineren GPUs auszuführen.

Dify GPU-Hosting-Anleitung 2026Lokale LLMs mit Dify ausführen