IDEAL-X
← KI-Wissen

30. Juli 2025

RAGTrust: Goldstandard für KI-Qualitätsprüfung

RAGTrust liefert eine wissenschaftlich fundierte, vollautomatisierte Evaluierung von Retrieval-Augmented-Generation-Systemen (RAG). Grundlage ist ein Evaluierungsdatensatz bestehend aus einem PDF-Dokument und einem abgestimmten Satz von Frage-Antwort-Paaren (QA-Paare). Das Prüfverfahren misst alle relevanten Qualitätskennzahlen – objektiv, reproduzierbar, skalierbar und unabhängig vom Modellanbieter.

Ablauf im Überblick

1. Goldstandard-Fragenkatalog

Für jedes Dokument wird ein vollständiger, dokumentierter Satz an QA-Paaren entwickelt, der zur Validierung der Ergebnisse dient. Negative Sampling – das gezielte Einbringen von Fangfragen ohne Informationsgrundlage – ermöglicht die präzise Erfassung der Halluzinationsrate.

2. Segmentierung und Indexierung

Das Ausgangsdokument wird systematisch in semantisch sinnvolle Absätze zerlegt und als Embeddings im Vektorindex abgelegt. Dies entspricht exakt den Abläufen im operativen Betrieb.

3. Automatisiertes Testing

Das System beantwortet alle Recall-Fragen (abgedeckte Inhalte) und Fangfragen (Negativkontrolle).

  • Recall: Anteil der tatsächlich gefundenen relevanten Antworten
  • Precision: Anteil der korrekt belegten Antworten
  • Hallucination Rate: Rate der unbelegten, halluzinierten Antworten
  • Coverage: Vollständigkeit der erfassten Informationsbereiche

4. Automatisierter Abgleich und Scoring

Jede KI-Antwort wird maschinell mit dem Evaluierungsdatensatz abgeglichen:

  • True Positives: Korrekt und belegt
  • False Positives: Halluziniert, ohne belegbare Quelle
  • False Negatives: Nicht beantwortet, trotz vorhandener Information

5. Audit Trail und Benchmarking

Ergebnisse werden revisionssicher dokumentiert (Audit Trail) und erlauben Benchmarking zwischen Systemen oder Systemständen – entscheidend für Compliance, interne Qualitätssicherung und externe Nachweispflichten.

Ihr Mehrwert mit RAGTrust

  • Messbare, dokumentierte Halluzinationsfreiheit durch gezielten Negative Sampling-Test
  • Prüfung auf Basis eines Evaluierungsdatensatzes – industriebewährt, regulatorisch anschlussfähig und herstellerunabhängig
  • Detaillierte Kennzahlen (Precision, Recall, Coverage, Hallucination Rate) für strategische Steuerung
  • Auditierbare Ergebnisse – jeder Testlauf bleibt nachvollziehbar
  • Transparenz für Entscheider, IT und Aufsichtsbehörden
  • Objektive Grundlage für Systemauswahl, Optimierung und Compliance-Reports

Praxisbeispiel

Bei der Evaluierung eines komplexen Fortschrittsberichts erreichte das geprüfte RAG-System eine Recall-Rate von 92 % und 0 % Hallucination Rate – möglich durch strikte Anwendung des Goldstandards, Negative Sampling und systematische Kennzahlenanalyse.

Fazit

RAGTrust macht KI-Leistung belegbar, prüfbar und regulatorisch anschlussfähig. Die Methode schafft belastbare Entscheidungsgrundlagen für den sicheren und verantwortungsvollen KI-Einsatz im Unternehmen.

Sie möchten Ihre eigene Wissensbasis testen? Sprechen Sie uns an – wir beraten Sie gerne.

Kontakt aufnehmen →

KI konkret für Ihr Unternehmen einordnen

Wir besprechen Ihre Ausgangslage und zeigen, wo KI in Ihrem Kontext realistische Wirkung entfaltet.

Kostenloses Erstgespräch