Precision, Recall und F1-Score sind die drei wichtigsten Messgrößen zur Bewertung der Qualität von KI-Systemen — insbesondere bei RAG-Systemen, Klassifizierungsaufgaben und KI-Agenten.
Die drei Messgrößen einfach erklärt
Precision (Genauigkeit) Frage: Wie viele der als relevant markierten Ergebnisse waren wirklich relevant? Hohe Precision minimiert falsche Treffer. Das System vermeidet es, harmlose Inhalte fälschlicherweise als relevant zu markieren.
Recall (Vollständigkeit) Frage: Wie viele der wirklich relevanten Ergebnisse wurden gefunden? Hoher Recall stellt sicher, dass keine wichtigen Inhalte übersehen werden.
F1-Score (Gesamtbewertung) Frage: Wie gut ist das System insgesamt — unter Berücksichtigung beider Ziele? Der F1-Score ist das harmonische Mittel aus Precision und Recall.
Der Zielkonflikt — Precision vs. Recall
| Priorität | Wann sinnvoll | Beispiel |
|---|---|---|
| Hohe Precision | Fehlalarme haben hohe Kosten | Spam-Filter (keine legitimen E-Mails blockieren) |
| Hoher Recall | Wichtiges übersehen ist inakzeptabel | Medizinische Diagnostik (alle Befunde erkennen) |
| Hoher F1 | Beide Ziele gleich wichtig | RAG-Retrieval, E-Mail-Klassifizierung |
Precision & Recall im RAG-System
Precision@k: Von den k zurückgegebenen Dokumenten — wie viele waren wirklich relevant für die Anfrage? → Minimiert Rauschen im Kontext.
Recall@k: Von allen relevanten Dokumenten — wie viele hat das System gefunden? → Stellt vollständige Abdeckung sicher.
F1@k: Gibt eine ausgewogene Bewertung der Retrieval-Qualität über Zeit und ermöglicht Systemvergleiche.
Häufige Fragen
Was ist ein guter F1-Score? Ergebnisse hängen stark vom Anwendungsfall ab. Für RAG-Retrieval gelten Werte über 0,7 als gut, über 0,85 als hervorragend. Die Verbesserung über Zeit ist wichtiger als absolute Werte.
Wie misst man Precision und Recall in der Praxis? Für Klassifizierung werden beschriftete Testdatensätze mit bekannten korrekten Antworten benötigt. RAG-Systeme brauchen Frage-Antwort-Paare zur Überprüfung der Dokumentensuche. Tools wie Langfuse und Ragas automatisieren Evaluierungsworkflows.
Gibt es weitere wichtige Metriken? Mean Reciprocal Rank (MRR) und Normalized Discounted Cumulative Gain (NDCG) berücksichtigen die Reihenfolge der Ergebnisse. Für LLM-Ausgaben werden BLEU, ROUGE und LLM-basierte Evaluierungsmethoden verwendet.
Warum nicht einfach Accuracy verwenden? Accuracy funktioniert gut für ausgewogene Datensätze, versagt aber bei unausgewogenen Klassen. Ein Modell, das 99 % der E-Mails als harmlos klassifiziert, erreicht 99 % Accuracy — ist aber nutzlos. Precision und Recall decken dieses Problem auf.
Verwandte Begriffe
- RAG — Retrieval-Qualität messen
- Observability & Langfuse — Metriken laufend überwachen
- Hybrid Search — Retrieval-Methode optimieren
- Halluzinationen — Was schlechter Recall verursacht