IDEAL-X
← KI-Glossar

KI-Glossar

Precision, Recall & F1-Score

Kennzahlen zur Bewertung von KI-Systemqualität — Genauigkeit, Vollständigkeit, Balance.

Precision, Recall und F1-Score sind die drei wichtigsten Messgrößen zur Bewertung der Qualität von KI-Systemen — insbesondere bei RAG-Systemen, Klassifizierungsaufgaben und KI-Agenten.

Die drei Messgrößen einfach erklärt

Precision (Genauigkeit) Frage: Wie viele der als relevant markierten Ergebnisse waren wirklich relevant? Hohe Precision minimiert falsche Treffer. Das System vermeidet es, harmlose Inhalte fälschlicherweise als relevant zu markieren.

Recall (Vollständigkeit) Frage: Wie viele der wirklich relevanten Ergebnisse wurden gefunden? Hoher Recall stellt sicher, dass keine wichtigen Inhalte übersehen werden.

F1-Score (Gesamtbewertung) Frage: Wie gut ist das System insgesamt — unter Berücksichtigung beider Ziele? Der F1-Score ist das harmonische Mittel aus Precision und Recall.

Der Zielkonflikt — Precision vs. Recall

PrioritätWann sinnvollBeispiel
Hohe PrecisionFehlalarme haben hohe KostenSpam-Filter (keine legitimen E-Mails blockieren)
Hoher RecallWichtiges übersehen ist inakzeptabelMedizinische Diagnostik (alle Befunde erkennen)
Hoher F1Beide Ziele gleich wichtigRAG-Retrieval, E-Mail-Klassifizierung

Precision & Recall im RAG-System

Precision@k: Von den k zurückgegebenen Dokumenten — wie viele waren wirklich relevant für die Anfrage? → Minimiert Rauschen im Kontext.

Recall@k: Von allen relevanten Dokumenten — wie viele hat das System gefunden? → Stellt vollständige Abdeckung sicher.

F1@k: Gibt eine ausgewogene Bewertung der Retrieval-Qualität über Zeit und ermöglicht Systemvergleiche.

Häufige Fragen

Was ist ein guter F1-Score? Ergebnisse hängen stark vom Anwendungsfall ab. Für RAG-Retrieval gelten Werte über 0,7 als gut, über 0,85 als hervorragend. Die Verbesserung über Zeit ist wichtiger als absolute Werte.

Wie misst man Precision und Recall in der Praxis? Für Klassifizierung werden beschriftete Testdatensätze mit bekannten korrekten Antworten benötigt. RAG-Systeme brauchen Frage-Antwort-Paare zur Überprüfung der Dokumentensuche. Tools wie Langfuse und Ragas automatisieren Evaluierungsworkflows.

Gibt es weitere wichtige Metriken? Mean Reciprocal Rank (MRR) und Normalized Discounted Cumulative Gain (NDCG) berücksichtigen die Reihenfolge der Ergebnisse. Für LLM-Ausgaben werden BLEU, ROUGE und LLM-basierte Evaluierungsmethoden verwendet.

Warum nicht einfach Accuracy verwenden? Accuracy funktioniert gut für ausgewogene Datensätze, versagt aber bei unausgewogenen Klassen. Ein Modell, das 99 % der E-Mails als harmlos klassifiziert, erreicht 99 % Accuracy — ist aber nutzlos. Precision und Recall decken dieses Problem auf.

Verwandte Begriffe

KI konkret für Ihr Unternehmen einordnen

Wir besprechen Ihre Ausgangslage und zeigen, wo KI in Ihrem Kontext realistische Wirkung entfaltet.

Kostenloses Erstgespräch