Guía de Hosting GPU para Dify 2026
Ejecutar LLMs Locales con Dify
Aloja Dify en un servidor GPU y conéctalo a Ollama o LocalAI para ejecutar Llama 3, Mistral y otros modelos de código abierto en local — con cero costes por token y total privacidad de los datos.
¿Por qué ejecutar Dify en un servidor GPU?
Conectar Dify a un LLM alojado localmente mediante Ollama o LocalAI elimina por completo la dependencia de proveedores de IA en la nube. Estas son las ventajas:
Sin costes de API
Paga solo por el servidor GPU, no por token. El uso de alto volumen resulta drásticamente más barato.
Privacidad de datos
Los prompts y respuestas nunca salen de tu infraestructura — esencial para sectores regulados.
Modelos personalizados
Ejecuta modelos ajustados o específicos de dominio que no están disponibles en ninguna API pública.
Sin límites de velocidad
Envía tantas solicitudes como tu GPU pueda manejar — sin throttling ni errores de cuota.
Comparativa de proveedores de GPU en la nube
Los precios son tarifas aproximadas bajo demanda a principios de 2026. Las instancias reservadas y spot suelen ser más baratas.
| Proveedor | GPU | VRAM | Precio/hr | Ideal para |
|---|---|---|---|---|
| Lambda Labs | A10 | 24 GB | $0.75/hr | Desarrollo |
| Vast.ai | RTX 4090 | 24 GB | ~$0.35/hr | Económico |
| RunPod | A100 | 80 GB | $1.99/hr | Producción |
| CoreWeave | H100 | 80 GB | $2.50/hr | Empresarial |
| Hetzner GPU | A100 | 80 GB | 2,49 EUR/hr | Cumplimiento EU |
Instalar CUDA y NVIDIA Container Toolkit
Antes de instalar Dify u Ollama, necesitas los drivers NVIDIA CUDA y el Container Toolkit para que los contenedores Docker puedan acceder a la GPU.
Instalar CUDA Toolkit 12.3
# Verificar si el driver de NVIDIA ya está instalado
nvidia-smi
# Si no está instalado, añadir el repositorio de NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# Instalar CUDA toolkit (incluye drivers)
sudo apt install -y cuda-toolkit-12-3
# Es necesario reiniciar después de instalar el driver
sudo reboot Verificar la GPU y configurar Docker
# Tras reiniciar, verificar que la GPU es detectada
nvidia-smi
# Instalar NVIDIA Container Toolkit (para acceso GPU desde Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker Tras ejecutar nvidia-smi, deberías ver tu GPU listada con su versión de driver y VRAM. Si Docker ya puede usar --gpus all, estás listo para el siguiente paso.
Instalar Ollama y descargar modelos LLM
Ollama es la forma más sencilla de servir LLMs de código abierto en tu GPU. Detecta automáticamente CUDA y utiliza la GPU para la inferencia.
Instalar Ollama y descargar modelos
# Instalar Ollama (instalador en una línea)
curl -fsSL https://ollama.com/install.sh | sh
# Verificar que Ollama está en ejecución
ollama list
# Descargar modelos LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b
# Probar un modelo
ollama run llama3.1:8b "Hello, what can you do?" Vincular Ollama a todas las interfaces de red
Por defecto, Ollama solo escucha en localhost. Para que sea accesible desde los contenedores Docker de Dify, debes vincularlo a 0.0.0.0:
# Editar el servicio systemd de Ollama para escuchar en todas las interfaces
sudo systemctl edit ollama --force --full
# Localizar la sección [Service] y añadir:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Aplicar los cambios
sudo systemctl daemon-reload
sudo systemctl restart ollama Configurar docker-compose.override.yaml
Crea o edita docker-compose.override.yaml en tu directorio de Dify para que los contenedores puedan resolver host.docker.internal hacia la máquina anfitriona en Linux:
services:
api:
extra_hosts:
- "host.docker.internal:host-gateway"
worker:
extra_hosts:
- "host.docker.internal:host-gateway" Nota: En macOS y Windows, host.docker.internal se resuelve automáticamente. En Linux, la entrada extra_hosts mostrada arriba es obligatoria.
Conectar Dify a Ollama
Con Ollama en ejecución y accesible, añádelo como proveedor de modelos en Dify:
- Abre tu instancia de Dify y haz clic en tu avatar en la esquina superior derecha.
- Ve a Configuración y luego a Proveedor de modelos.
- Desplázate hacia abajo para encontrar Ollama y haz clic en Añadir modelo.
- Establece la URL base en
http://host.docker.internal:11434. - Introduce el nombre del modelo exactamente como aparece en
ollama list(p. ej.llama3.1:8b). - Haz clic en Guardar — Dify probará la conexión. Una marca de verificación verde confirma el éxito.
- El modelo ya está disponible en todas tus aplicaciones y flujos de trabajo de Dify.
Consejo: Repite el paso 5 para cada modelo que hayas descargado. Puedes añadir tantos modelos Ollama como quieras — cada uno aparece como un modelo seleccionable independiente dentro de Dify.
LocalAI — Una alternativa compatible con OpenAI
Si prefieres una superficie de API compatible con OpenAI, LocalAI es una excelente alternativa a Ollama. Expone endpoints como /v1/chat/completions para que puedas usar la integración OpenAI existente de Dify sin configuración adicional.
Ejecutar LocalAI con Docker (GPU)
# Ejecutar LocalAI con Docker (con GPU habilitada)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12 Una vez en ejecución, configura Dify con Proveedor de modelos: compatible con API de OpenAI, establece la URL base en http://host.docker.internal:8080/v1 y usa cualquier nombre de modelo que hayas cargado en LocalAI. No se requiere clave de API para despliegues locales.
Recomendaciones de modelos por caso de uso
Elige tu modelo según la VRAM disponible y el equilibrio entre calidad y velocidad que necesita tu aplicación.
| Modelo | VRAM requerida | Velocidad | Ideal para |
|---|---|---|---|
llama3.1:8b | ~6 GB | Rápido | Uso general, chat |
mistral:7b | ~5 GB | Muy rápido | Apps críticas por velocidad |
codellama:13b | ~10 GB | Medio | Generación de código |
llama3.1:70b | ~40 GB | Lento | Salidas de alta calidad |
mixtral:8x7b | ~26 GB | Medio | Calidad/velocidad equilibradas |
Referencia rápida de VRAM
Estos son requisitos aproximados para inferencia de precisión completa (fp16). Los modelos cuantizados (Q4/Q5) pueden reducir el uso de VRAM entre un 30 y un 50%, permitiendo ejecutar modelos más grandes en GPUs más pequeñas.