Precision, Recall und F1-Score sind die drei wichtigsten Messgrößen zur Bewertung der Qualität von KI-Systemen — insbesondere bei RAG-Systemen, Klassifizierungsaufgaben und KI-Agenten.

Die drei Messgrößen einfach erklärt

Precision (Genauigkeit) Frage: Wie viele der als relevant markierten Ergebnisse waren wirklich relevant? Hohe Precision minimiert falsche Treffer. Das System vermeidet es, harmlose Inhalte fälschlicherweise als relevant zu markieren.

Recall (Vollständigkeit) Frage: Wie viele der wirklich relevanten Ergebnisse wurden gefunden? Hoher Recall stellt sicher, dass keine wichtigen Inhalte übersehen werden.

F1-Score (Gesamtbewertung) Frage: Wie gut ist das System insgesamt — unter Berücksichtigung beider Ziele? Der F1-Score ist das harmonische Mittel aus Precision und Recall.

Der Zielkonflikt — Precision vs. Recall

Priorität	Wann sinnvoll	Beispiel
Hohe Precision	Fehlalarme haben hohe Kosten	Spam-Filter (keine legitimen E-Mails blockieren)
Hoher Recall	Wichtiges übersehen ist inakzeptabel	Medizinische Diagnostik (alle Befunde erkennen)
Hoher F1	Beide Ziele gleich wichtig	RAG-Retrieval, E-Mail-Klassifizierung

Precision & Recall im RAG-System

Precision@k: Von den k zurückgegebenen Dokumenten — wie viele waren wirklich relevant für die Anfrage? → Minimiert Rauschen im Kontext.

Recall@k: Von allen relevanten Dokumenten — wie viele hat das System gefunden? → Stellt vollständige Abdeckung sicher.

F1@k: Gibt eine ausgewogene Bewertung der Retrieval-Qualität über Zeit und ermöglicht Systemvergleiche.

Häufige Fragen

Was ist ein guter F1-Score? Ergebnisse hängen stark vom Anwendungsfall ab. Für RAG-Retrieval gelten Werte über 0,7 als gut, über 0,85 als hervorragend. Die Verbesserung über Zeit ist wichtiger als absolute Werte.

Wie misst man Precision und Recall in der Praxis? Für Klassifizierung werden beschriftete Testdatensätze mit bekannten korrekten Antworten benötigt. RAG-Systeme brauchen Frage-Antwort-Paare zur Überprüfung der Dokumentensuche. Tools wie Langfuse und Ragas automatisieren Evaluierungsworkflows.

Gibt es weitere wichtige Metriken? Mean Reciprocal Rank (MRR) und Normalized Discounted Cumulative Gain (NDCG) berücksichtigen die Reihenfolge der Ergebnisse. Für LLM-Ausgaben werden BLEU, ROUGE und LLM-basierte Evaluierungsmethoden verwendet.

Warum nicht einfach Accuracy verwenden? Accuracy funktioniert gut für ausgewogene Datensätze, versagt aber bei unausgewogenen Klassen. Ein Modell, das 99 % der E-Mails als harmlos klassifiziert, erreicht 99 % Accuracy — ist aber nutzlos. Precision und Recall decken dieses Problem auf.

Precision, Recall & F1-Score

Die drei Messgrößen einfach erklärt

Der Zielkonflikt — Precision vs. Recall

Precision & Recall im RAG-System

Häufige Fragen

Verwandte Begriffe

KI konkret für Ihr Unternehmen einordnen