Eine Vektor-Datenbank ist eine spezialisierte Datenbank, die Embeddings speichert und nach Ähnlichkeit statt nach exakten Übereinstimmungen sucht. Klassische Datenbanken suchen nach dem Muster „Name = Müller”; Vektor-Datenbanken vergleichen semantische Konzepte.
Kernmerkmale:
- Schnell: Ähnlichkeitssuche in Millisekunden über Millionen Einträge
- Skalierbar: Von Tausenden bis Milliarden Vektoren ohne Performanceverlust
- Flexibel: Speichert Text, Bilder, Audio — alles in Vektorform
Vektor-Datenbank vs. klassische Datenbank
| Aspekt | Klassische DB | Vektor-Datenbank |
|---|---|---|
| Sucht nach | Exakten Werten | Ähnlichkeit/Nähe |
| Datenformat | Tabellen, Zeilen, Spalten | Hochdimensionale Vektoren |
| Stärke | Transaktionen, Reports | Semantische Suche, RAG, KI |
| Beispiele | PostgreSQL, MySQL, SAP HANA | Weaviate, Pinecone, Qdrant |
Wie eine Vektor-Datenbank funktioniert
- Vektoren einpflegen: Dokumente werden durch Embedding-Modelle in Vektoren konvertiert, zusammen mit Originaltext und Metadaten gespeichert.
- Index aufbauen: Effiziente Indizes (z. B. HNSW) organisieren Vektoren für millisekundenschnelle Ähnlichkeitssuche.
- Anfrage verarbeiten: Nutzeranfrage wird vektorisiert; System findet die k semantisch ähnlichsten Einträge.
- Ergebnisse zurückgeben: Originaltexte der ähnlichsten Vektoren werden an das LLM als Kontext übergeben.
Die wichtigsten Vektor-Datenbanken
Weaviate — Open Source, native Hybrid Search, GraphQL-API. Ideal für produktive RAG-Systeme, DSGVO-konform selbst hostbar. Empfehlung für den Mittelstand.
Qdrant — Open Source, in Rust geschrieben — sehr performant. Einfache API, gut für schnellen Start. Hohe Performance.
Pinecone — Managed Cloud-Service, kein eigenes Hosting nötig. Schneller Einstieg, Daten auf US-Servern. Einfachster Start.
Häufige Fragen
Kann ich PostgreSQL als Vektor-Datenbank nutzen? Ja — PostgreSQL mit pgvector-Erweiterung unterstützt Vektoren. Gut für kleine bis mittlere Anwendungen; spezialisierte Datenbanken sind produktiv performanter.
Wie viel Speicherplatz braucht eine Vektor-Datenbank? Ein Vektor mit 1.536 Dimensionen (OpenAI ada-002) benötigt ca. 6 KB. 100.000 Dokumente erfordern ungefähr 600 MB für Vektoren plus Index und Originaltext.
Was ist der Unterschied zwischen Vektor-Datenbank und Graph-Datenbank? Vektor-Datenbanken speichern Embeddings und suchen semantische Ähnlichkeit. Graph-Datenbanken (z. B. Neo4j) speichern Entitäten und Beziehungen. GraphRAG kombiniert beide.
Sind Vektor-Datenbanken DSGVO-konform? Die Technologie selbst ist neutral. Konformität hängt vom Hosting-Ort und den gespeicherten Daten ab. Open-Source-Lösungen (Weaviate, Qdrant) können auf EU-Infrastruktur betrieben werden.
Verwandte Begriffe
- Embeddings — Was in der Datenbank gespeichert wird
- RAG — Der Hauptanwendungsfall
- Hybrid Search — Vektor + Keyword in einer Datenbank
- Knowledge Graph — Alternative Wissensstruktur