▷ Data Science-Bewertungsmetriken – Algorithmen enträtseln

Hinweis: Der folgende Artikel hilft Ihnen dabei: Data Science-Bewertungsmetriken – Algorithmen enträtseln – Auf dem Weg zur KI

Erkenntnisse über Bewertungsmetriken für Klassifizierungsaufgaben.

Wenn Sie nicht wissen, wie man die richtige Frage stellt, entdecken Sie nichts.– W. Edwards Deming

In der Welt des maschinellen Lernens gibt es unzählige Auswertungsmöglichkeiten und jeden Tag kommen neue hinzu. Gleich zu Beginn dieses Artikels möchte ich auch erwähnen, dass es kein Allheilmittel für jedes Data-Science-Problem gibt, das immer die beste Möglichkeit bietet, die Ergebnisse zu analysieren. Es gibt gängige und sehr robuste Methoden, aber in vielen Fällen , sie müssen angepasst werden, oder es wird eine anwendungsspezifische Methode entwickelt. Um diesen Artikel nicht unnötig aufzublähen, möchte ich die Metriken in die beiden klassischen Data-Science-Anwendungsgruppen Klassifizierung und Regression unterteilen. Letzteres wird im zweiten Teil dieser Artikelserie besprochen und dieser Artikel ist den Metriken gewidmet, die zur Bewertung von Klassifizierungsalgorithmen verwendet werden können.

Weniger reden, mehr Inhalt.– Mich

Grundlagen: Um das Verständnis dieses Artikels und die Reproduzierbarkeit zu gewährleisten, ist der gesamte hier verwendete Code auf meinem Github verfügbar [LINK]. Das gebrauchte Notebook benötigt lediglich die Bibliotheken. Alle verwendeten Datensätze können auch über importiert werden oder sind enthalten.

Klassifizierungsmethode: Für die Klassifizierungen wird eine logistische Regression (binäre Klasse) verwendet. Eine Erläuterung der Algorithmen erfolgt nicht. Unter den folgenden Links finden Sie jedoch hervorragende Beschreibungen.

Logistische Regression: LINK[1] Pant, A., , TowardsDataScience

Darüber hinaus kann ich jedem Datenwissenschaftler nur raten, zur schnellen Erstellung von Plots die Bibliothek Seaborn zu nutzen, auf die Erstellung dieser Plots werde ich aber nicht näher eingehen. Den genauen Ablauf können Sie auch dem vorliegenden Notizbuch entnehmen.

Unterworfene Metriken

Die häufigsten Kennzahlen und Kennzahlen, auf die wir uns konzentrieren werden, sind:

Die erste Metrik, die wir in diesem Artikel betrachten, ist vielleicht die am einfachsten zu verstehende Metrik im gesamten Bereich der Datenwissenschaft: Genauigkeit.Ein einfaches Beispiel: Wie jeden Samstag rate ich auf den Ausgang der deutschen Fußballliga und wie jeden Samstag auf den richtigen Sieger nur eines der zehn Spiele. Wie jeden Samstag verliere ich mein Geld und wie jeden Samstag meine .

Ein besseres (und für mich günstigeres) Beispiel lässt sich mit der sehr bekannten Platte von beschreiben. Dieser Datensatz beschreibt mit insgesamt 30 Kovariaten, ob ein Patient Krebs hat oder nicht.

Wie bei allen anderen Beispielen trainieren wir nun ein Modell, das noch nie zuvor gesehene Datensätze in zwei Klassen unterteilt und die Grundlage für unsere Bewertungsmetriken bildet. Hier verwenden wir die logistische Regression.

Genauigkeit— absolutes Grundwissen

Jetzt müssen wir nur noch unsere erste Metrik berechnen (Genauigkeit ) soll vergleichen, wie unser Modell für viele Patienten die richtige Klasse vorhersagte.

Wir erhalten also eine Genauigkeit von 94 % – nicht schlecht für ein einfaches Modell, oder? Die Antwort lautet ja und nein. Ja, eine Genauigkeit von 94 % ist in den meisten Fällen recht gut, es sei denn, Sie haben einen technischen Fehler wie einen falschen Train-Test-Split gemacht. Aber stellen Sie sich nun vor, Sie hätten insgesamt 100 Patienten, von denen 94 keinen Krebs haben und 6 davon haben Krebszellen in ihrem Körper. In diesem Fall wäre der Datensatz verzerrt, und Sie könnten mit einem Modell, das eine konstante 0 (kein Krebs) vorhersagt, 94 % erreichen. Im Allgemeinen bedeutet verzerrt, dass eine der Binärklassen die anderen bei weitem übertrifft, also gibt es viel mehr Einträge. In diesen Fällen wird empfohlen, die Genauigkeit nicht als Maß für die Genauigkeit der Vorhersage zu verwenden.

Um diese Probleme anzugehen, verwenden wir die gleiche Vorgehensweise wie in der Schule beim Erlernen von Fremdsprachen: Zuerst den Wortschatz, dann die Anwendung. Wir verwenden erneut den gleichen Datensatz wie zuvor, gehen der Einfachheit halber jedoch von den Zuständen wie folgt aus: – . Unser Modell wird wiederum Vorhersagen für verschiedene Patienten treffen, die dann mit den bekannten Zuständen verglichen werden. Dementsprechend können unsere Vorhersagen 4 Zustände annehmen, wie in der Abbildung dargestellt:

Übrigens: Schauen Sie sich den Beitrag über Verwirrungsmatrizen von Herrn Mohajon an [LINK] wo ich auch das Bild oben geklaut habe 🙂

Echt positiv (TP): Unser Modell sagt voraus, dass der Patient Krebs hat, und der Patient hat tatsächlich Krebs. —Echt negativ (TN): Unser Modell sagt voraus, dass der Patient keinen Krebs hat und krebsfrei ist. — Falsch positiv (FP): Unser Modell sagt voraus, dass ein Patient Krebs hat, der Patient jedoch krebsfrei ist. Falsch negativ (FN): Unser Modell sagt voraus, dass ein Patient krebsfrei ist, der Patient jedoch Krebs hat.

Schön, jetzt wissen wir, wie wir unsere Vorhersagen kennzeichnen. Die mit jedem Zustand gekennzeichnete Größe (Anzahl der Vorhersagen) kann nun verwendet werden, um uns ein besseres Verständnis dafür zu geben, was unser Modell gut macht und was verbessert werden muss. Beispielsweise ist es in der Medizin (oder in unserem Anwendungsfall) äußerst wichtig, alle Krebserkrankungen zu erkennen. Es sollte möglichst kein Patient übersehen werden. Wenn einige Patienten fälschlicherweise als „krank“ eingestuft werden, ist das nicht gut, aber mit weiteren Tests werden diese Patienten in fast allen Fällen erkannt.

Präzision und Rückruf– das Allheilmittel?

Präzision und Rückruf können genau für eine solche Anwendung genutzt werden. Hier sind die Formeln der beiden Metriken:

Anhand der zuvor getroffenen Definitionen und Formeln können Sie direkt erkennen, dass ein gutes Modell möglichst hohe Werte haben sollte Präzision Und Abrufen . Für unser erstes Modell sind die Ergebnisse:

Beide Werte sind ziemlich hoch. Ist das also der endgültige Beweis dafür, dass wir das beste Modell aller Zeiten gefunden haben? Nö. Unser Datensatz ist einfach ausgewogen. Lassen Sie uns das ändern und einen realistischeren realen Benutzerfall erstellen. Zur Erinnerung: Wir hatten zuvor einen annähernd ausgeglichenen Datensatz mit Klassengrößen ~200 und ~350, aber jetzt, da die Klassengrößen auf 1919 und 357 geändert wurden, bzw. – wir sollten einen großen Unterschied sehen.

Metrikergebnisse:

Genauigkeit: 0,71 Präzision: 0,5244 Rückruf: 0,8543

Naja, na ja … Man kann deutlich sehen, dass alle Kennzahlen dramatisch gesunken sind. Ich möchte den Einfluss des Modells hier nicht schmälern, aber die Interpretation der Metriken ist wichtiger:Aufgrund der geringe Präzision, Wir können daraus schließen, dass unser Modell produziert ziemlich viele Fehlalarme.Das bedeutet, dass wir vorhersagen, dass viele Patienten Krebs haben, obwohl sie in Wirklichkeit krebsfrei sind. Darüber hinaus ist die okayer Wert für den Rückrufist eine gute Sache, denn wie oben beschrieben wollen wir nicht sagen, dass Patientinnen krebsfrei sind, wenn sie tatsächlich Brustkrebs haben. Wir haben weniger falsch-negative Ergebnisse.

Soweit ist das alles schön und gut, aber was machen wir, wenn unsere Werte für Präzision und Erinnerung nicht zufriedenstellend sind? Um diese Frage zu beantworten, müssen Sie verstehen, wie ein maschinelles Lernmodell in einer binären Klassifizierung zu einer Entscheidung kommt: Der Grenzbereich .In den meisten Modellen, in denen eine Wahrscheinlichkeit vorhergesagt wird, ist der Schwellenwert auf 0,5 festgelegt, aber was bedeutet das? Im Grunde nur, dass jede Wahrscheinlichkeit einer Zufallsvariablen und .Obwohl es sich bei diesem Schwellenwert um ein gängiges Basismodell handelt, ist es sicherlich nicht für jede Anwendung ideal. Abhängig vom Wert des Schwellenwerts können sich die Präzisions- und Erinnerungswerte dramatisch ändern. Wie wäre es, wenn Sie die Präzisions- und Erinnerungswerte für zahlreiche Schwellenwerte berechnen und grafisch darstellen würden? Verdammt gute Idee – Glückwunsch: Wir haben gerade das abgeleitet Precision-Recall-Kurve .

Note: Viele der folgenden Plots wurden mit erstellt, was die Analyse von Scikit-Learn-Modellen extrem einfach macht! Absolute Empfehlung! [LINK]

Precision-Recall-Kurve

Für die Visualisierung der Kurve verwenden wir einen neuen Datensatz. Es enthält NLP-Merkmale einer E-Mail und die Information, ob es sich bei der E-Mail um Spam handelt oder nicht. Also wollen wir es wieder binär klassifizieren.

Das angezeigte Diagramm bietet viele hilfreiche Informationen über das Modell, seine Fähigkeiten und mögliche Einschränkungen. Was wir direkt sehen können, ist, dass zwar die Genauigkeit mit steigendem Schwellenwert zunimmt, gleichzeitig aber auch die Recall-Kurve immer mehr abnimmt. Eine Erklärung für die Form der beiden Kurven ist nach aufmerksamer Lektüre des oberen Teils (hoffentlich) absolut logisch: Wenn wir erhöhen Wenn wir den Schwellenwert immer weiter erhöhen, bis jede E-Mail als Spam markiert ist, entgehen uns keine echten Spam-Mails (maximale Präzision). Dennoch werden wir auch alle E-Mails, die tatsächlich keinen Spam verursachen, als unerwünschte Nachrichten kennzeichnen (sehr geringer Rückruf).

Ein Wert, der auch direkt im Plot angezeigt wird und einen harmonischen Mittelwert von Precision und Recall darstellt, ist derF1-Wert.

So können Sie das analysieren rotes F1-Diagrammanstatt sich die beiden Diagramme für Präzision (blau) und Rückruf (grün) anzusehen. Auch dieser Wert liegt immer zwischen 0 und 1, wobei 1 eine perfekte Vorhersage bedeuten würde. Da der Wert aus der Präzisions- und Recall-Kurve abgeleitet wird, eignet sich dieser Wert sehr gut für verzerrte Datensätze.

Ähnlich wie bei Precision und Recall oder dem F1-Wert können aus den Ergebnissen der Confusion Matrix weitere Metriken berechnet werden. Die Namen dieser Metriken geben einen klaren Überblick über ihre Bedeutung: Genauso wie Präzision 1-FPR wird auch Spezifität (True Negative Rate) genannt.

ROC- und AUC-Kurve – Visualisierung der Verwirrungsmatrix

Die AUC-ROC-Kurve ist eine Ausgabemessung in verschiedenen Schwellenwerteinstellungen für Klassifizierungsprobleme. Im Detail: ROC ist eine Wahrscheinlichkeitskurve. AUC ist der Grad oder das Maß der Trennbarkeit.Beides zusammen zeigt, wie sehr das Modell zwischen Gruppen differenzieren kann.

Je besser das Modell Klassen korrekt vorhersagen kann, desto höher ist die AUC (bester Wert 1, schlechtester 0). Im Kontext unseres Spam-Datensatzes bedeutet eine höhere AUC, dass das Modell besser vorhersagen kann, ob es sich bei einer E-Mail um Spam handelt oder nicht. Wie immer ist es viel einfacher, es anhand eines Beispiels zu verstehen. Hier ist der Code und das generierte Diagramm für die ROC-AUC-Kurve unseres Spam-Datensatzes und Modells:

Schönes Plot-Maxi, aber wie kann man es jetzt nutzen?

Ähnlich wie beim vorherigen Schwellenwertdiagramm kann dieses Diagramm zur Auswahl des besten Schwellenwerts verwendet werden. Darüber hinaus gibt dieser Plot direkte Auskunft darüber, wie sich der jeweilige Schwellenwert auf die und die auswirkt, was für manche Anwendungen entscheidend ist!

Nehmen Sie unser Spam-Beispiel: Hier besteht das übergeordnete Ziel darin, sämtlichen Spam zu erkennen. Sollten einzelne Mails unbefugt im Spam-Ordner landen, ist dies bis zu einem gewissen Grad akzeptabel (unter der realistischen Annahme, dass es kein perfektes Modell gibt). In technischer Hinsicht bedeutet dies, dass wir eine sehr hohe Richtig-Positiv-Rate und eine niedrige Falsch-Negativ-Rate anstreben. Dies lässt sich auf die ROC-Kurve übertragen, was bedeuten würde, dass wir die höchstmögliche wollen TPR-Wert (Y-Achse)mit dem geringstmöglichen WertFPR-Wert (X-Achse). Da aber die Spam-Erkennung Priorität hat, ist man theoretisch bereit, auf der X-Achse Zugeständnisse zu machen. Wer weniger will, bekommt dafür mehr. Anhand dieses Beispiels können Sie sehen, dass, wenn Sie eine 100-prozentige Wahrscheinlichkeit für die Spam-Erkennung haben möchten, fast 40 % der E-Mails als fälschlicherweise als Spam markiert werden. Andererseits würde ein Modell mit einem anderen Schwellenwert, der „nur“ etwa 97 % des Spams erkennt, nur etwa 7 % der normalen E-Mails als Spam markieren. Wie bereits erwähnt, liegt die Entscheidung beim Benutzer.

Wird auch häufig beim Umgang mit verzerrten Datensätzen verwendet! Die Funktion besteht darin, dass Sie benachrichtigt werden, dass Sie mehrere falsch klassifizierte Positive (FP) haben, obwohl Sie aufgrund der dominanten Klasse über eine hohe Genauigkeit verfügen und daher in diesem Fall eine niedrige Punktzahl zurückgeben würden. Der Grund dafür ist, dass die Anzahl der falsch positiven Ergebnisse zunimmt und daher der Nenner größer wird (TP / (TP +FP)).

Zusammenfassung

In diesen Artikeln wurden die wichtigen Metriken zur Bewertung von Klassifikationsproblemen vorgestellt. Obwohl die Genauigkeit allein in einigen (einfachen) Anwendungsfällen ausreichend sein kann, wird empfohlen, andere Metriken zur Analyse der Ergebnisse einzubeziehen. Da die Kurve einen sehr detaillierten Einblick in die Fähigkeiten und Probleme des Klassifizierungsmodells gibt, ist sie wahrscheinlich die am häufigsten verwendete der vorgestellten Methoden. Es sollte jedoch beachtet werden, dass es viele andere genauere, komplexere und möglicherweise viel bessere Methoden gibt. geeignete Methoden.

In Kontakt bleiben:

LinkedIn: https://www.linkedin.com/in/maximilianstaeblerTwitter: https://twitter.com/ms_staebler

Data Science Evaluation Metrics – Unravel Algorithms wurde ursprünglich in Towards AI auf Medium veröffentlicht, wo die Leute das Gespräch fortsetzen, indem sie diese Geschichte hervorheben und darauf antworten.

Veröffentlicht über Towards AI

Table of Contents

Data Science-Bewertungsmetriken – Algorithmen enträtseln – Auf dem Weg zur KI

Erkenntnisse über Bewertungsmetriken für Klassifizierungsaufgaben.

Unterworfene Metriken

Zusammenfassung

Mehr lesen: