Aggiornato marzo 2026 $0 costi API

Guida GPU Hosting Dify 2026
Esegui LLM locali con Dify

Ospita Dify su un server GPU e collegalo a Ollama o LocalAI per eseguire Llama 3, Mistral e altri modelli open-source in locale — senza costi per token e con completa privacy dei dati.

Perché eseguire Dify su un server GPU?

Collegare Dify a un LLM ospitato localmente tramite Ollama o LocalAI elimina completamente la dipendenza dai provider AI cloud. Ecco cosa guadagni:

💰

Zero costi API

Paghi solo il server GPU, non per token. L'utilizzo ad alto volume diventa notevolmente più economico.

🔒

Privacy dei dati

Prompt e risposte non lasciano mai la tua infrastruttura — essenziale per i settori regolamentati.

🧩

Modelli personalizzati

Esegui modelli fine-tuned o specifici per dominio non disponibili tramite API pubbliche.

🚀

Nessun limite di velocità

Gestisci tante richieste quante ne supporta la tua GPU — nessun throttling, nessun errore di quota.

Confronto provider cloud GPU

I prezzi sono tariffe on-demand approssimative all'inizio del 2026. Le istanze riservate e spot sono tipicamente più economiche.

Provider	GPU	VRAM	Prezzo/ora	Ideale per
Lambda Labs	A10	24 GB	$0.75/hr	Sviluppo
Vast.ai	RTX 4090	24 GB	~$0.35/hr	Budget
RunPod	A100	80 GB	$1.99/hr	Produzione
CoreWeave	H100	80 GB	$2.50/hr	Enterprise
Hetzner GPU	A100	80 GB	2.49 EUR/hr	Conformità UE

Installa CUDA e NVIDIA Container Toolkit

Prima di installare Dify o Ollama, devi avere i driver NVIDIA CUDA e il Container Toolkit affinché i container Docker possano accedere alla GPU.

Installa CUDA Toolkit 12.3

# Verifica se il driver NVIDIA è già installato
nvidia-smi

# Se non installato, aggiungi il repository NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Installa il toolkit CUDA (include i driver)
sudo apt install -y cuda-toolkit-12-3

# Riavvio necessario dopo l'installazione del driver
sudo reboot

Verifica GPU e configura Docker

# Dopo il riavvio, verifica che la GPU sia rilevata
nvidia-smi

# Installa NVIDIA Container Toolkit (per accesso GPU da Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Dopo aver eseguito nvidia-smi, dovresti vedere la tua GPU elencata con versione driver e VRAM. Se Docker può usare --gpus all, sei pronto per il passo successivo.

Installa Ollama e scarica i modelli LLM

Ollama è il modo più semplice per servire LLM open-source sulla tua GPU. Rileva automaticamente CUDA e usa la GPU per l'inferenza.

Installa Ollama e scarica i modelli

# Installa Ollama (installer a riga singola)
curl -fsSL https://ollama.com/install.sh | sh

# Verifica che Ollama sia in esecuzione
ollama list

# Scarica modelli LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Testa un modello
ollama run llama3.1:8b "Ciao, cosa puoi fare?"

Configura Ollama per tutte le interfacce di rete

Per impostazione predefinita Ollama ascolta solo su localhost. Per renderlo raggiungibile dai container Docker di Dify, associalo a 0.0.0.0:

# Modifica il servizio systemd di Ollama per ascoltare su tutte le interfacce
sudo systemctl edit ollama --force --full

# Trova la sezione [Service] e aggiungi:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Applica le modifiche
sudo systemctl daemon-reload
sudo systemctl restart ollama

Configura docker-compose.override.yaml

Crea o modifica docker-compose.override.yaml nella directory Dify per risolvere host.docker.internal su Linux:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Nota: Su macOS e Windows, host.docker.internal si risolve automaticamente. Su Linux, la voce extra_hosts è necessaria.

Collega Dify a Ollama

Con Ollama in esecuzione e raggiungibile, aggiungilo come provider di modelli in Dify:

Apri la tua istanza Dify e fai clic sull'avatar in alto a destra.
Vai a Impostazioni poi Provider modello.
Scorri verso il basso per trovare Ollama e fai clic su Aggiungi modello.
Imposta l'URL base su http://host.docker.internal:11434.
Inserisci il Nome modello esattamente come elencato da ollama list (es. llama3.1:8b).
Fai clic su Salva — Dify testerà la connessione. Un segno di spunta verde conferma il successo.
Il modello è ora disponibile in tutte le tue app e workflow Dify.

LocalAI — Un'alternativa compatibile con OpenAI

Se preferisci un'interfaccia API compatibile con OpenAI, LocalAI è un'eccellente alternativa a Ollama. Espone endpoint come /v1/chat/completions così puoi usare l'integrazione OpenAI esistente di Dify senza configurazioni extra.

Esegui LocalAI con Docker (GPU)

# Esegui LocalAI con Docker (con GPU)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Una volta avviato, configura Dify con Provider modello: OpenAI-API-compatible, imposta l'URL base su http://host.docker.internal:8080/v1 e usa qualsiasi nome modello caricato in LocalAI. Nessuna API key è richiesta per distribuzioni locali.

Raccomandazioni modelli per caso d'uso

Scegli il modello in base alla VRAM disponibile e al compromesso qualità-velocità della tua applicazione.

Modello	VRAM richiesta	Velocità	Ideale per
`llama3.1:8b`	~6 GB	Veloce	Uso generale, chat
`mistral:7b`	~5 GB	Molto veloce	App critiche per velocità
`codellama:13b`	~10 GB	Medio	Generazione codice
`llama3.1:70b`	~40 GB	Lento	Output di alta qualità
`mixtral:8x7b`	~26 GB	Medio	Equilibrio qualità/velocità

Riferimento rapido VRAM

~6 GB

Modelli 7B

es. Llama 3.1 8B, Mistral 7B

~10 GB

Modelli 13B

es. CodeLlama 13B

~20 GB

Modelli 34B

es. CodeLlama 34B

~40 GB

Modelli 70B

es. Llama 3.1 70B

Requisiti approssimativi per inferenza a piena precisione (fp16). I modelli quantizzati (Q4/Q5) riducono la VRAM del 30–50%.

Guide correlate

Guida Self-Host Dify

Guida completa per ospitare Dify autonomamente sul tuo server o VPS.

Configurazione Docker Dify

Configurazione Docker Compose passo-passo per Dify in produzione.

Migliori provider Dify Hosting

Confronto tra opzioni di hosting gestito e cloud per Dify nel 2026.

Guida GPU Hosting Dify 2026Esegui LLM locali con Dify