Guida GPU Hosting Dify 2026
Esegui LLM locali con Dify
Ospita Dify su un server GPU e collegalo a Ollama o LocalAI per eseguire Llama 3, Mistral e altri modelli open-source in locale — senza costi per token e con completa privacy dei dati.
Perché eseguire Dify su un server GPU?
Collegare Dify a un LLM ospitato localmente tramite Ollama o LocalAI elimina completamente la dipendenza dai provider AI cloud. Ecco cosa guadagni:
Zero costi API
Paghi solo il server GPU, non per token. L'utilizzo ad alto volume diventa notevolmente più economico.
Privacy dei dati
Prompt e risposte non lasciano mai la tua infrastruttura — essenziale per i settori regolamentati.
Modelli personalizzati
Esegui modelli fine-tuned o specifici per dominio non disponibili tramite API pubbliche.
Nessun limite di velocità
Gestisci tante richieste quante ne supporta la tua GPU — nessun throttling, nessun errore di quota.
Confronto provider cloud GPU
I prezzi sono tariffe on-demand approssimative all'inizio del 2026. Le istanze riservate e spot sono tipicamente più economiche.
| Provider | GPU | VRAM | Prezzo/ora | Ideale per |
|---|---|---|---|---|
| Lambda Labs | A10 | 24 GB | $0.75/hr | Sviluppo |
| Vast.ai | RTX 4090 | 24 GB | ~$0.35/hr | Budget |
| RunPod | A100 | 80 GB | $1.99/hr | Produzione |
| CoreWeave | H100 | 80 GB | $2.50/hr | Enterprise |
| Hetzner GPU | A100 | 80 GB | 2.49 EUR/hr | Conformità UE |
Installa CUDA e NVIDIA Container Toolkit
Prima di installare Dify o Ollama, devi avere i driver NVIDIA CUDA e il Container Toolkit affinché i container Docker possano accedere alla GPU.
Installa CUDA Toolkit 12.3
# Verifica se il driver NVIDIA è già installato
nvidia-smi
# Se non installato, aggiungi il repository NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# Installa il toolkit CUDA (include i driver)
sudo apt install -y cuda-toolkit-12-3
# Riavvio necessario dopo l'installazione del driver
sudo reboot Verifica GPU e configura Docker
# Dopo il riavvio, verifica che la GPU sia rilevata
nvidia-smi
# Installa NVIDIA Container Toolkit (per accesso GPU da Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker Dopo aver eseguito nvidia-smi, dovresti vedere la tua GPU elencata con versione driver e VRAM. Se Docker può usare --gpus all, sei pronto per il passo successivo.
Installa Ollama e scarica i modelli LLM
Ollama è il modo più semplice per servire LLM open-source sulla tua GPU. Rileva automaticamente CUDA e usa la GPU per l'inferenza.
Installa Ollama e scarica i modelli
# Installa Ollama (installer a riga singola)
curl -fsSL https://ollama.com/install.sh | sh
# Verifica che Ollama sia in esecuzione
ollama list
# Scarica modelli LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b
# Testa un modello
ollama run llama3.1:8b "Ciao, cosa puoi fare?" Configura Ollama per tutte le interfacce di rete
Per impostazione predefinita Ollama ascolta solo su localhost. Per renderlo raggiungibile dai container Docker di Dify, associalo a 0.0.0.0:
# Modifica il servizio systemd di Ollama per ascoltare su tutte le interfacce
sudo systemctl edit ollama --force --full
# Trova la sezione [Service] e aggiungi:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Applica le modifiche
sudo systemctl daemon-reload
sudo systemctl restart ollama Configura docker-compose.override.yaml
Crea o modifica docker-compose.override.yaml nella directory Dify per risolvere host.docker.internal su Linux:
services:
api:
extra_hosts:
- "host.docker.internal:host-gateway"
worker:
extra_hosts:
- "host.docker.internal:host-gateway" Nota: Su macOS e Windows, host.docker.internal si risolve automaticamente. Su Linux, la voce extra_hosts è necessaria.
Collega Dify a Ollama
Con Ollama in esecuzione e raggiungibile, aggiungilo come provider di modelli in Dify:
- Apri la tua istanza Dify e fai clic sull'avatar in alto a destra.
- Vai a Impostazioni poi Provider modello.
- Scorri verso il basso per trovare Ollama e fai clic su Aggiungi modello.
- Imposta l'URL base su
http://host.docker.internal:11434. - Inserisci il Nome modello esattamente come elencato da
ollama list(es.llama3.1:8b). - Fai clic su Salva — Dify testerà la connessione. Un segno di spunta verde conferma il successo.
- Il modello è ora disponibile in tutte le tue app e workflow Dify.
LocalAI — Un'alternativa compatibile con OpenAI
Se preferisci un'interfaccia API compatibile con OpenAI, LocalAI è un'eccellente alternativa a Ollama. Espone endpoint come /v1/chat/completions così puoi usare l'integrazione OpenAI esistente di Dify senza configurazioni extra.
Esegui LocalAI con Docker (GPU)
# Esegui LocalAI con Docker (con GPU)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12 Una volta avviato, configura Dify con Provider modello: OpenAI-API-compatible, imposta l'URL base su http://host.docker.internal:8080/v1 e usa qualsiasi nome modello caricato in LocalAI. Nessuna API key è richiesta per distribuzioni locali.
Raccomandazioni modelli per caso d'uso
Scegli il modello in base alla VRAM disponibile e al compromesso qualità-velocità della tua applicazione.
| Modello | VRAM richiesta | Velocità | Ideale per |
|---|---|---|---|
llama3.1:8b | ~6 GB | Veloce | Uso generale, chat |
mistral:7b | ~5 GB | Molto veloce | App critiche per velocità |
codellama:13b | ~10 GB | Medio | Generazione codice |
llama3.1:70b | ~40 GB | Lento | Output di alta qualità |
mixtral:8x7b | ~26 GB | Medio | Equilibrio qualità/velocità |
Riferimento rapido VRAM
Requisiti approssimativi per inferenza a piena precisione (fp16). I modelli quantizzati (Q4/Q5) riducono la VRAM del 30–50%.