Aktualisiert März 2026 RAG-Anleitung Fortgeschritten

Dify RAG Anleitung 2026: Fragen aus eigenen Dokumenten beantworten

Retrieval-Augmented Generation (RAG) ist die mächtigste Funktion von Dify. Diese Anleitung zeigt dir genau, wie du eine KI aufbaust, die deine Dokumente durchsucht bevor sie antwortet — und damit genaue, fundierte Antworten statt halluzinierten Vermutungen liefert.

Was ist Dify RAG?

RAG steht für Retrieval-Augmented Generation. Diese Technik gibt deiner KI Zugang zu deinen eigenen Dokumenten, Datenbanken und Wissensquellen — anstatt nur aus allgemeinen Trainingsdaten zu antworten, durchsucht sie zuerst deine Inhalte und generiert eine Antwort, die auf dem Gefundenen basiert.

Standard-LLMs wie GPT-4 oder Claude halluzinieren, wenn man sie nach internen Dokumenten, Produktspezifikationen oder Unternehmensrichtlinien fragt — weil sie diese Daten schlicht nicht kennen. Dify RAG löst das, indem es eine Wissensdatenbank aus deinen Dateien erstellt und die relevantesten Textabschnitte als Kontext einfügt, bevor das Modell antwortet.

Das Ergebnis: Ein KI-Chatbot, der präzise aus deinen echten Daten antwortet, Quellen zitiert und „Ich weiß es nicht" sagt, wenn die Information nicht verfügbar ist — statt etwas zu erfinden.

✓ Antworten aus deinen Dokumenten

✓ Dramatisch weniger Halluzinationen

✓ Zitiert spezifische Textpassagen

✓ Funktioniert mit PDF, Word, TXT, Markdown

✓ Kein Fine-Tuning des Modells nötig

✓ Wissensbasis jederzeit aktualisierbar

Wie Dify RAG intern funktioniert

Das Verständnis der Pipeline hilft dir bei der besseren Konfiguration. So läuft der Prozess ab, wenn du ein Dokument hochlädst und deinen Chatbot eine Frage stellst:

Dokumentenaufnahme

Du lädst eine Datei hoch. Dify extrahiert den Textinhalt aus PDFs, Word-Dokumenten, Markdown usw.

Chunking

Der Text wird in kleinere Abschnitte aufgeteilt (typischerweise 500–1000 Tokens), damit die Suche präzise ist.

Embedding

Jeder Abschnitt wird mit einem Embedding-Modell wie text-embedding-3-small in einen Vektor (Zahlenliste) umgewandelt.

Vektorspeicherung

Die Vektoren werden in einer Vektordatenbank gespeichert (integriert, pgvector, Qdrant, Weaviate, Milvus oder Pinecone).

Abfrage-Retrieval

Wenn ein Nutzer eine Frage stellt, wird diese ebenfalls eingebettet und die ähnlichsten Abschnitte aus dem Vektorspeicher abgerufen.

Kontext-Injektion

Die abgerufenen Abschnitte werden als Kontext in den LLM-Prompt eingefügt. Das Modell antwortet auf Basis dieser echten Daten.

Wichtig zu verstehen: RAG verändert das LLM nicht. Es fügt einen Retrieval-Schritt vor der Generierung hinzu. Das bedeutet, du kannst deine Wissensdatenbank jederzeit aktualisieren, ohne das Modell anzufassen.

Wissensdatenbank einrichten

Die Wissensdatenbank ist der Ort, wo du deine Dokumente hochlädst und indexierst. Folge diesen Schritten:

Dify öffnen → Reiter "Knowledge"

Klicke oben in der Navigation auf "Knowledge" (Wissen). Hier befinden sich alle deine Dokumentensammlungen.

Neue Wissensdatenbank erstellen

Klicke auf "+ Wissen erstellen". Gib ihr einen beschreibenden Namen (z.B. "Produktdokumentation", "Support-FAQ").

Dateien hochladen

Ziehe Dateien per Drag & Drop oder wähle sie über den Browser aus. Unterstützt: PDF, Word (.docx), TXT, Markdown (.md), HTML, CSV. Mehrere Dateien gleichzeitig möglich.

Chunking-Strategie wählen

Wähle "Automatisch" für die meisten Fälle. Das teilt Dokumente nach Absätzen und Überschriften. Für dichte technische Dokumente: "Benutzerdefiniert" mit 800-Token-Chunks und 150-Token-Überlappung.

Embedding-Modell auswählen

Wähle dein Embedding-Modell. OpenAI text-embedding-3-small wird empfohlen — schnell, günstig und präzise. Beim Self-Hosting funktioniert nomic-embed-text über Ollama auch offline.

Dokumente indexieren

Klicke auf "Speichern & Verarbeiten". Dify chunked und embeddet alles. Je nach Dokumentgröße dauert das 1–5 Minuten. Ein Fortschrittsbalken zeigt den Status.

Tipp: Sauber formatierte Dokumente werden besser indexiert. Entferne Kopf- und Fußzeilen, Seitenzahlen und Standardtexte aus deinen PDFs vor dem Hochladen, um die Retrieval-Qualität zu verbessern.

RAG mit deiner App verbinden

Sobald deine Wissensdatenbank indexiert ist, verbinde sie mit einem Chatbot oder Agent:

Öffne deinen Chatbot oder Agent im Studio

Suche im linken Bereich den Abschnitt "Kontext"

Klicke auf "+ Kontext hinzufügen" und wähle deine Wissensdatenbank

Stelle den Abrufmodus auf "Semantische Suche" (empfohlen) für bedeutungsbasiertes Retrieval oder "Volltextsuche" für Schlüsselwort-Matching

Setze "Top K" auf 3–5 (wie viele Abschnitte pro Anfrage abgerufen werden). Starte mit 3.

Aktiviere "Score-Schwellenwert" bei 0,5, um irrelevante Ergebnisse herauszufiltern

Teste im Vorschau-Panel mit Fragen aus deinen Dokumenten. Überprüfe, ob der Bot korrekte Infos liefert.

Profi-Tipp: Ergänze deinen System-Prompt: "Wenn du aus dem bereitgestellten Kontext antwortest, gib immer den Namen des Quelldokuments an." Das macht transparent, welches Dokument als Quelle diente.

Unterstützte Vektordatenbanken

Dify unterstützt mehrere Vektorspeicher. Für die meisten Nutzer reicht der integrierte Speicher aus. Für große Deployments (Millionen von Dokumenten) wechsle zu einer dedizierten Vektordatenbank:

Vektorspeicher	Einrichtung	Ideal für	Kosten
Integriert (Standard) Empfohlen	Keiner	Die meisten Nutzer — bis ~100k Dokumente	Kostenlos
pgvector	PostgreSQL-Extension	Bestehende PostgreSQL-Nutzer	Kostenlos (Self-Hosted)
Qdrant	Docker-Container	Self-Hosted, hohe Performance	Kostenlos (Self-Hosted)
Weaviate	Docker oder Cloud	Multimodale Daten (Text + Bilder)	Kostenlos / bezahlte Cloud
Milvus	Docker oder Zilliz Cloud	Milliarden von Vektoren, Enterprise	Kostenlos / bezahlte Cloud
Pinecone	Nur API-Schlüssel	Fully Managed, kein Infrastruktur-Aufwand	Bezahltes SaaS

Empfehlung: Starte mit dem integrierten Vektorspeicher. Er erfordert keinerlei Konfiguration und funktioniert gut für die meisten Projekte. Wechsle nur dann zu einem externen Speicher, wenn du mehr als 100.000 Dokument-Chunks hast.

RAG-Tipps für beste Ergebnisse

Diese Konfigurationstipps verbessern deine RAG-Genauigkeit erheblich:

Optimale Chunk-Größe: 500–1000 Tokens

Zu klein = fehlender Kontext. Zu groß = verwässerte Relevanz. Für die meisten Dokumente ist 600 Tokens mit 100 Token Überlappung ideal.

Quelldokumente bereinigen

Entferne wiederkehrende Kopf- und Fußzeilen, Seitenzahlen und Navigationselemente. Diese erzeugen Rauschen, das die Retrieval-Qualität beeinträchtigt.

Metadaten-Filterung nutzen

Beschrifte Dokumente mit Kategorien (z.B. "Produkt: Abrechnung", "Typ: FAQ"). Filter erlauben präzises Retrieval aus relevanten Teilmengen.

Wissensdatenbanken nach Thema trennen

Mische nicht das Produkthandbuch mit der Personalrichtlinie. Separate Datensätze ermöglichen präziseres Retrieval. Du kannst mehrere Basen an eine App anhängen.

Hybrid-Suche verwenden

Dify unterstützt einen Hybrid-Modus (semantische + Schlüsselwortsuche kombiniert). Ideal für exakte Begriffe wie Produktcodes oder Eigennamen.

Retrieval in den Logs überwachen

Gehe zu Logs & Annotierungen in deiner App, um zu sehen, welche Chunks für jede Anfrage abgerufen wurden. Nutze das zur Fehleranalyse bei schlechten Antworten.

Abrufmodi erklärt

Dify bietet drei Abrufmodi. Wähle je nach deinem Inhaltstyp:

Semantische Suche

Findet konzeptionell ähnliche Inhalte, auch wenn die genauen Wörter abweichen. Ideal für natürlichsprachliche Fragen zu komplexen Themen. Nutzt Vektorsimilarität.

Volltextsuche

Schlüsselwortbasierte Suche wie eine klassische Suchmaschine. Besser bei exakten Begriffen: Produktcodes, Namen, IDs. Schnell und vorhersehbar.

Hybridsuche

Kombiniert semantische und Volltextsuche mit einem Reranker. Beste Gesamtgenauigkeit, aber langsamer. Benötigt ein Reranker-Modell (z.B. cohere-rerank).

Externe Datenquellen & Synchronisierung

Dify geht über einfache Datei-Uploads hinaus. Du kannst externe Quellen verbinden, die sich automatisch synchronisieren:

Notion

Verbinde deinen Notion-Workspace. Dify synchronisiert Seiten automatisch. Ideal für Team-Wikis und Dokumentation.

Web-Scraping

Gib eine URL an und Dify ruft die Seite ab und indexiert sie. Gut für öffentliche Dokumentationsseiten.

Benutzerdefinierte API

Baue ein Retrieval-Plugin über die External Knowledge Base API. Verbinde beliebige Datenbanken oder proprietäre Datenquellen.

Dateisync über API

Lade Dokumente programmatisch über die Dataset API hoch und aktualisiere sie. Nützlich für CMS-Integrationen.

Häufig gestellte Fragen

Was ist Dify RAG?

RAG steht für Retrieval-Augmented Generation. Mit Dify RAG kann deine KI vor der Antwort deine eigenen Dokumente, PDFs oder Datenbanken durchsuchen — das reduziert Halluzinationen erheblich und verbessert die Genauigkeit bei fachspezifischen Fragen.

Welche Dateiformate unterstützt Dify RAG?

Die Dify Wissensdatenbank unterstützt PDF, Word (.docx), Plaintext (.txt), Markdown (.md), HTML und CSV-Dateien. Du kannst auch externe Datenquellen über die API verbinden oder mit Notion synchronisieren.

Wie reduziert Dify RAG Halluzinationen?

Anstatt sich nur auf das Trainingswissen des LLMs zu verlassen, ruft Dify RAG relevante Textabschnitte aus deinen Dokumenten ab und fügt sie als Kontext ein. Das Modell antwortet dann auf Basis deiner tatsächlichen Daten.

Welche Vektordatenbanken funktionieren mit Dify RAG?

Dify unterstützt mehrere Vektorspeicher: integriert (Standard, kein Setup), pgvector (PostgreSQL), Qdrant, Weaviate, Milvus und Pinecone. Der integrierte Speicher reicht für die meisten Nutzer aus.

Bereit, Dify mit RAG selbst zu hosten?

Self-Hosting von Dify gibt dir volle Kontrolle über deine Daten — entscheidend, wenn deine Wissensdatenbank sensible Dokumente enthält. Betreibe Dify auf deinem eigenen Server ab €3,79/Monat auf Hetzner oder nutze eine vollständig verwaltete Instanz auf Elestio in unter 5 Minuten.

Dify auf Hetzner selbst hosten → Verwaltetes Dify auf Elestio Alle Hosting-Optionen vergleichen