Actualizado marzo 2026 $0 en costes de API

Guía de Hosting GPU para Dify 2026
Ejecutar LLMs Locales con Dify

Aloja Dify en un servidor GPU y conéctalo a Ollama o LocalAI para ejecutar Llama 3, Mistral y otros modelos de código abierto en local — con cero costes por token y total privacidad de los datos.

¿Por qué ejecutar Dify en un servidor GPU?

Conectar Dify a un LLM alojado localmente mediante Ollama o LocalAI elimina por completo la dependencia de proveedores de IA en la nube. Estas son las ventajas:

💰

Sin costes de API

Paga solo por el servidor GPU, no por token. El uso de alto volumen resulta drásticamente más barato.

🔒

Privacidad de datos

Los prompts y respuestas nunca salen de tu infraestructura — esencial para sectores regulados.

🧩

Modelos personalizados

Ejecuta modelos ajustados o específicos de dominio que no están disponibles en ninguna API pública.

🚀

Sin límites de velocidad

Envía tantas solicitudes como tu GPU pueda manejar — sin throttling ni errores de cuota.

Comparativa de proveedores de GPU en la nube

Los precios son tarifas aproximadas bajo demanda a principios de 2026. Las instancias reservadas y spot suelen ser más baratas.

Proveedor	GPU	VRAM	Precio/hr	Ideal para
Lambda Labs	A10	24 GB	$0.75/hr	Desarrollo
Vast.ai	RTX 4090	24 GB	~$0.35/hr	Económico
RunPod	A100	80 GB	$1.99/hr	Producción
CoreWeave	H100	80 GB	$2.50/hr	Empresarial
Hetzner GPU	A100	80 GB	2,49 EUR/hr	Cumplimiento EU

Instalar CUDA y NVIDIA Container Toolkit

Antes de instalar Dify u Ollama, necesitas los drivers NVIDIA CUDA y el Container Toolkit para que los contenedores Docker puedan acceder a la GPU.

Instalar CUDA Toolkit 12.3

# Verificar si el driver de NVIDIA ya está instalado
nvidia-smi

# Si no está instalado, añadir el repositorio de NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Instalar CUDA toolkit (incluye drivers)
sudo apt install -y cuda-toolkit-12-3

# Es necesario reiniciar después de instalar el driver
sudo reboot

Verificar la GPU y configurar Docker

# Tras reiniciar, verificar que la GPU es detectada
nvidia-smi

# Instalar NVIDIA Container Toolkit (para acceso GPU desde Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Tras ejecutar nvidia-smi, deberías ver tu GPU listada con su versión de driver y VRAM. Si Docker ya puede usar --gpus all, estás listo para el siguiente paso.

Instalar Ollama y descargar modelos LLM

Ollama es la forma más sencilla de servir LLMs de código abierto en tu GPU. Detecta automáticamente CUDA y utiliza la GPU para la inferencia.

Instalar Ollama y descargar modelos

# Instalar Ollama (instalador en una línea)
curl -fsSL https://ollama.com/install.sh | sh

# Verificar que Ollama está en ejecución
ollama list

# Descargar modelos LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Probar un modelo
ollama run llama3.1:8b "Hello, what can you do?"

Vincular Ollama a todas las interfaces de red

Por defecto, Ollama solo escucha en localhost. Para que sea accesible desde los contenedores Docker de Dify, debes vincularlo a 0.0.0.0:

# Editar el servicio systemd de Ollama para escuchar en todas las interfaces
sudo systemctl edit ollama --force --full

# Localizar la sección [Service] y añadir:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Aplicar los cambios
sudo systemctl daemon-reload
sudo systemctl restart ollama

Configurar docker-compose.override.yaml

Crea o edita docker-compose.override.yaml en tu directorio de Dify para que los contenedores puedan resolver host.docker.internal hacia la máquina anfitriona en Linux:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Nota: En macOS y Windows, host.docker.internal se resuelve automáticamente. En Linux, la entrada extra_hosts mostrada arriba es obligatoria.

Conectar Dify a Ollama

Con Ollama en ejecución y accesible, añádelo como proveedor de modelos en Dify:

Abre tu instancia de Dify y haz clic en tu avatar en la esquina superior derecha.
Ve a Configuración y luego a Proveedor de modelos.
Desplázate hacia abajo para encontrar Ollama y haz clic en Añadir modelo.
Establece la URL base en http://host.docker.internal:11434.
Introduce el nombre del modelo exactamente como aparece en ollama list (p. ej. llama3.1:8b).
Haz clic en Guardar — Dify probará la conexión. Una marca de verificación verde confirma el éxito.
El modelo ya está disponible en todas tus aplicaciones y flujos de trabajo de Dify.

Consejo: Repite el paso 5 para cada modelo que hayas descargado. Puedes añadir tantos modelos Ollama como quieras — cada uno aparece como un modelo seleccionable independiente dentro de Dify.

LocalAI — Una alternativa compatible con OpenAI

Si prefieres una superficie de API compatible con OpenAI, LocalAI es una excelente alternativa a Ollama. Expone endpoints como /v1/chat/completions para que puedas usar la integración OpenAI existente de Dify sin configuración adicional.

Ejecutar LocalAI con Docker (GPU)

# Ejecutar LocalAI con Docker (con GPU habilitada)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Una vez en ejecución, configura Dify con Proveedor de modelos: compatible con API de OpenAI, establece la URL base en http://host.docker.internal:8080/v1 y usa cualquier nombre de modelo que hayas cargado en LocalAI. No se requiere clave de API para despliegues locales.

Recomendaciones de modelos por caso de uso

Elige tu modelo según la VRAM disponible y el equilibrio entre calidad y velocidad que necesita tu aplicación.

Modelo	VRAM requerida	Velocidad	Ideal para
`llama3.1:8b`	~6 GB	Rápido	Uso general, chat
`mistral:7b`	~5 GB	Muy rápido	Apps críticas por velocidad
`codellama:13b`	~10 GB	Medio	Generación de código
`llama3.1:70b`	~40 GB	Lento	Salidas de alta calidad
`mixtral:8x7b`	~26 GB	Medio	Calidad/velocidad equilibradas

Referencia rápida de VRAM

~6 GB

Modelos 7B

p. ej. Llama 3.1 8B, Mistral 7B

~10 GB

Modelos 13B

p. ej. CodeLlama 13B

~20 GB

Modelos 34B

p. ej. CodeLlama 34B

~40 GB

Modelos 70B

p. ej. Llama 3.1 70B

Estos son requisitos aproximados para inferencia de precisión completa (fp16). Los modelos cuantizados (Q4/Q5) pueden reducir el uso de VRAM entre un 30 y un 50%, permitiendo ejecutar modelos más grandes en GPUs más pequeñas.