Dify RAG Anleitung 2026: Fragen aus eigenen Dokumenten beantworten
Retrieval-Augmented Generation (RAG) ist die mächtigste Funktion von Dify. Diese Anleitung zeigt dir genau, wie du eine KI aufbaust, die deine Dokumente durchsucht bevor sie antwortet — und damit genaue, fundierte Antworten statt halluzinierten Vermutungen liefert.
Was ist Dify RAG?
RAG steht für Retrieval-Augmented Generation. Diese Technik gibt deiner KI Zugang zu deinen eigenen Dokumenten, Datenbanken und Wissensquellen — anstatt nur aus allgemeinen Trainingsdaten zu antworten, durchsucht sie zuerst deine Inhalte und generiert eine Antwort, die auf dem Gefundenen basiert.
Standard-LLMs wie GPT-4 oder Claude halluzinieren, wenn man sie nach internen Dokumenten, Produktspezifikationen oder Unternehmensrichtlinien fragt — weil sie diese Daten schlicht nicht kennen. Dify RAG löst das, indem es eine Wissensdatenbank aus deinen Dateien erstellt und die relevantesten Textabschnitte als Kontext einfügt, bevor das Modell antwortet.
Das Ergebnis: Ein KI-Chatbot, der präzise aus deinen echten Daten antwortet, Quellen zitiert und „Ich weiß es nicht" sagt, wenn die Information nicht verfügbar ist — statt etwas zu erfinden.
Wie Dify RAG intern funktioniert
Das Verständnis der Pipeline hilft dir bei der besseren Konfiguration. So läuft der Prozess ab, wenn du ein Dokument hochlädst und deinen Chatbot eine Frage stellst:
Dokumentenaufnahme
Du lädst eine Datei hoch. Dify extrahiert den Textinhalt aus PDFs, Word-Dokumenten, Markdown usw.
Chunking
Der Text wird in kleinere Abschnitte aufgeteilt (typischerweise 500–1000 Tokens), damit die Suche präzise ist.
Embedding
Jeder Abschnitt wird mit einem Embedding-Modell wie text-embedding-3-small in einen Vektor (Zahlenliste) umgewandelt.
Vektorspeicherung
Die Vektoren werden in einer Vektordatenbank gespeichert (integriert, pgvector, Qdrant, Weaviate, Milvus oder Pinecone).
Abfrage-Retrieval
Wenn ein Nutzer eine Frage stellt, wird diese ebenfalls eingebettet und die ähnlichsten Abschnitte aus dem Vektorspeicher abgerufen.
Kontext-Injektion
Die abgerufenen Abschnitte werden als Kontext in den LLM-Prompt eingefügt. Das Modell antwortet auf Basis dieser echten Daten.
Wissensdatenbank einrichten
Die Wissensdatenbank ist der Ort, wo du deine Dokumente hochlädst und indexierst. Folge diesen Schritten:
Dify öffnen → Reiter "Knowledge"
Klicke oben in der Navigation auf "Knowledge" (Wissen). Hier befinden sich alle deine Dokumentensammlungen.
Neue Wissensdatenbank erstellen
Klicke auf "+ Wissen erstellen". Gib ihr einen beschreibenden Namen (z.B. "Produktdokumentation", "Support-FAQ").
Dateien hochladen
Ziehe Dateien per Drag & Drop oder wähle sie über den Browser aus. Unterstützt: PDF, Word (.docx), TXT, Markdown (.md), HTML, CSV. Mehrere Dateien gleichzeitig möglich.
Chunking-Strategie wählen
Wähle "Automatisch" für die meisten Fälle. Das teilt Dokumente nach Absätzen und Überschriften. Für dichte technische Dokumente: "Benutzerdefiniert" mit 800-Token-Chunks und 150-Token-Überlappung.
Embedding-Modell auswählen
Wähle dein Embedding-Modell. OpenAI text-embedding-3-small wird empfohlen — schnell, günstig und präzise. Beim Self-Hosting funktioniert nomic-embed-text über Ollama auch offline.
Dokumente indexieren
Klicke auf "Speichern & Verarbeiten". Dify chunked und embeddet alles. Je nach Dokumentgröße dauert das 1–5 Minuten. Ein Fortschrittsbalken zeigt den Status.
RAG mit deiner App verbinden
Sobald deine Wissensdatenbank indexiert ist, verbinde sie mit einem Chatbot oder Agent:
Öffne deinen Chatbot oder Agent im Studio
Suche im linken Bereich den Abschnitt "Kontext"
Klicke auf "+ Kontext hinzufügen" und wähle deine Wissensdatenbank
Stelle den Abrufmodus auf "Semantische Suche" (empfohlen) für bedeutungsbasiertes Retrieval oder "Volltextsuche" für Schlüsselwort-Matching
Setze "Top K" auf 3–5 (wie viele Abschnitte pro Anfrage abgerufen werden). Starte mit 3.
Aktiviere "Score-Schwellenwert" bei 0,5, um irrelevante Ergebnisse herauszufiltern
Teste im Vorschau-Panel mit Fragen aus deinen Dokumenten. Überprüfe, ob der Bot korrekte Infos liefert.
Unterstützte Vektordatenbanken
Dify unterstützt mehrere Vektorspeicher. Für die meisten Nutzer reicht der integrierte Speicher aus. Für große Deployments (Millionen von Dokumenten) wechsle zu einer dedizierten Vektordatenbank:
| Vektorspeicher | Einrichtung | Ideal für | Kosten |
|---|---|---|---|
| Integriert (Standard) Empfohlen | Keiner | Die meisten Nutzer — bis ~100k Dokumente | Kostenlos |
| pgvector | PostgreSQL-Extension | Bestehende PostgreSQL-Nutzer | Kostenlos (Self-Hosted) |
| Qdrant | Docker-Container | Self-Hosted, hohe Performance | Kostenlos (Self-Hosted) |
| Weaviate | Docker oder Cloud | Multimodale Daten (Text + Bilder) | Kostenlos / bezahlte Cloud |
| Milvus | Docker oder Zilliz Cloud | Milliarden von Vektoren, Enterprise | Kostenlos / bezahlte Cloud |
| Pinecone | Nur API-Schlüssel | Fully Managed, kein Infrastruktur-Aufwand | Bezahltes SaaS |
RAG-Tipps für beste Ergebnisse
Diese Konfigurationstipps verbessern deine RAG-Genauigkeit erheblich:
Optimale Chunk-Größe: 500–1000 Tokens
Zu klein = fehlender Kontext. Zu groß = verwässerte Relevanz. Für die meisten Dokumente ist 600 Tokens mit 100 Token Überlappung ideal.
Quelldokumente bereinigen
Entferne wiederkehrende Kopf- und Fußzeilen, Seitenzahlen und Navigationselemente. Diese erzeugen Rauschen, das die Retrieval-Qualität beeinträchtigt.
Metadaten-Filterung nutzen
Beschrifte Dokumente mit Kategorien (z.B. "Produkt: Abrechnung", "Typ: FAQ"). Filter erlauben präzises Retrieval aus relevanten Teilmengen.
Wissensdatenbanken nach Thema trennen
Mische nicht das Produkthandbuch mit der Personalrichtlinie. Separate Datensätze ermöglichen präziseres Retrieval. Du kannst mehrere Basen an eine App anhängen.
Hybrid-Suche verwenden
Dify unterstützt einen Hybrid-Modus (semantische + Schlüsselwortsuche kombiniert). Ideal für exakte Begriffe wie Produktcodes oder Eigennamen.
Retrieval in den Logs überwachen
Gehe zu Logs & Annotierungen in deiner App, um zu sehen, welche Chunks für jede Anfrage abgerufen wurden. Nutze das zur Fehleranalyse bei schlechten Antworten.
Abrufmodi erklärt
Dify bietet drei Abrufmodi. Wähle je nach deinem Inhaltstyp:
Semantische Suche
Findet konzeptionell ähnliche Inhalte, auch wenn die genauen Wörter abweichen. Ideal für natürlichsprachliche Fragen zu komplexen Themen. Nutzt Vektorsimilarität.
Volltextsuche
Schlüsselwortbasierte Suche wie eine klassische Suchmaschine. Besser bei exakten Begriffen: Produktcodes, Namen, IDs. Schnell und vorhersehbar.
Hybridsuche
Kombiniert semantische und Volltextsuche mit einem Reranker. Beste Gesamtgenauigkeit, aber langsamer. Benötigt ein Reranker-Modell (z.B. cohere-rerank).
Externe Datenquellen & Synchronisierung
Dify geht über einfache Datei-Uploads hinaus. Du kannst externe Quellen verbinden, die sich automatisch synchronisieren:
Notion
Verbinde deinen Notion-Workspace. Dify synchronisiert Seiten automatisch. Ideal für Team-Wikis und Dokumentation.
Web-Scraping
Gib eine URL an und Dify ruft die Seite ab und indexiert sie. Gut für öffentliche Dokumentationsseiten.
Benutzerdefinierte API
Baue ein Retrieval-Plugin über die External Knowledge Base API. Verbinde beliebige Datenbanken oder proprietäre Datenquellen.
Dateisync über API
Lade Dokumente programmatisch über die Dataset API hoch und aktualisiere sie. Nützlich für CMS-Integrationen.
Häufig gestellte Fragen
Was ist Dify RAG?
RAG steht für Retrieval-Augmented Generation. Mit Dify RAG kann deine KI vor der Antwort deine eigenen Dokumente, PDFs oder Datenbanken durchsuchen — das reduziert Halluzinationen erheblich und verbessert die Genauigkeit bei fachspezifischen Fragen.
Welche Dateiformate unterstützt Dify RAG?
Die Dify Wissensdatenbank unterstützt PDF, Word (.docx), Plaintext (.txt), Markdown (.md), HTML und CSV-Dateien. Du kannst auch externe Datenquellen über die API verbinden oder mit Notion synchronisieren.
Wie reduziert Dify RAG Halluzinationen?
Anstatt sich nur auf das Trainingswissen des LLMs zu verlassen, ruft Dify RAG relevante Textabschnitte aus deinen Dokumenten ab und fügt sie als Kontext ein. Das Modell antwortet dann auf Basis deiner tatsächlichen Daten.
Welche Vektordatenbanken funktionieren mit Dify RAG?
Dify unterstützt mehrere Vektorspeicher: integriert (Standard, kein Setup), pgvector (PostgreSQL), Qdrant, Weaviate, Milvus und Pinecone. Der integrierte Speicher reicht für die meisten Nutzer aus.
Bereit, Dify mit RAG selbst zu hosten?
Self-Hosting von Dify gibt dir volle Kontrolle über deine Daten — entscheidend, wenn deine Wissensdatenbank sensible Dokumente enthält. Betreibe Dify auf deinem eigenen Server ab €3,79/Monat auf Hetzner oder nutze eine vollständig verwaltete Instanz auf Elestio in unter 5 Minuten.