Technologische Neuigkeiten, Bewertungen und Tipps!

Die Macht der Inferenzstatistik verdeutlichen, um intelligenter zu machen … – Auf dem Weg zur KI

Hinweis: Der folgende Artikel hilft Ihnen dabei: Die Macht der Inferenzstatistik verdeutlichen, um intelligenter zu machen … – Auf dem Weg zur KI

Ursprünglich veröffentlicht auf Towards AI, dem weltweit führenden Nachrichten- und Medienunternehmen für KI und Technologie. Wenn Sie ein KI-bezogenes Produkt oder eine KI-bezogene Dienstleistung entwickeln, laden wir Sie ein, darüber nachzudenken, KI-Sponsor zu werden. Bei Towards AI helfen wir bei der Skalierung von KI- und Technologie-Startups. Wir helfen Ihnen dabei, Ihre Technologie der breiten Masse zugänglich zu machen.

Verdeutlichen Sie die Macht der Inferenzstatistik, um intelligentere Entscheidungen zu treffen!

Die strategische Rolle von Data-Science-Teams in der Branche besteht im Wesentlichen darin, Folgendes zu tun: Helfen Sie Unternehmen, intelligentere Entscheidungen zu treffen. Dazu gehören Entscheidungen (z. B. die Optimierung der Marketingausgaben) sowie Entscheidungen von Unternehmen (z. B. wie ein neuer Marktteilnehmer in einem wettbewerbsintensiven Markt positioniert werden soll). In beiden Systemen werden die potenziellen Auswirkungen der Datenwissenschaft erst dann erkannt, wenn Sowohl Menschen als auch Maschinenakteure lernen aus den Daten und wann Datenwissenschaftler kommunizieren effektiv an Entscheidungsträger im gesamten Unternehmen. Während des gesamten Lebenszyklus des maschinellen Lernens besteht sicherlich eine Dualität zwischen Schlussfolgerung und Vorhersage. Aus einer ausgewogenen Perspektive sind Vorhersage und Schlussfolgerung integrale Bestandteile des Prozesses, durch den Modelle mit Daten verglichen werden.

Jedoch, In der Branche herrscht eine unausgewogene, vorhersageorientierte Perspektive wo Datenwissenschaftler dazu neigen, direkt mit der Vorhersage der Zielvariablen zu beginnen. Dieser Ansatz kann sich als schädlich für intelligentere Entscheidungen erweisen.

Mit diesem Blog biete ich an, die wahre Macht von Schlussfolgerungen und Vorhersagen zu erklären, indem ich Hand in Hand arbeite.

Die Dualität von Vorhersage und Schlussfolgerung

Typischerweise beginnt ein einfaches Setup für überwachtes maschinelles Lernen mit – bestehend aus unabhängigen und abhängigen Variablen. Beiden Variablen liegt eine existenzielle Beziehung zugrunde, die oft als Y = f(β.x) angegeben wird.

Dieser Aufbau wird anhand des folgenden grafischen Diagramms erläutert:

Versuchen wir nun, das obige Diagramm in Vorhersage und Schlussfolgerung zu zerlegen. Zuvor möchte ich aus praktischen Gründen beide Begriffe so einfach wie möglich definieren.

  • Vorhersagen: Das Modell eines Datengenerierungsprozesses als Reaktion auf eine bestimmte Konfiguration von Eingaben.
  • Schlussfolgerungen: Die Informationen zum Datengenerierungsprozess durch den systematischen Vergleich von Vorhersagen aus dem Modell mit beobachteten Daten aus dem Datengenerierungsprozess.

Ein überwachtes maschinelles Lernsetup mit einer ausgewogenen Perspektive, das sowohl Vorhersage- als auch Inferenzkomponenten wertschätzt, kann wie folgt beschrieben werden:

Die obige Abbildung verdeutlicht dies Vorhersage und Schlussfolgerung sind zwei unterschiedliche Ziele des Modellierungsprozesses, die beide einen Mehrwert für Unternehmen bieten und sind im Modellierungsprozess untrennbar miteinander verbunden, können jedoch auf unterschiedliche Weise betrachtet werden. Beide Perspektiven sind in unterschiedlichen Kontexten gültig, und Analysten und Organisationen müssen Folgendes berücksichtigen Erkennen Sie die geeignete Ausrichtung für ein bestimmtes Data-Science-Projekt.

Testen wir die Leistungsfähigkeit der Inferenzstatistik!

Lassen Sie mich hier die Dualität von Schlussfolgerung und Vorhersage anhand eines Beispiels erläutern. Nehmen wir an, wir streben danach Prognostizieren Sie die Nachfrage nach Elektrorollern im Jahr 2019 für eine bestimmte Region, und uns wurde die historische jährliche Nachfrage nach Elektrorollern für dieselbe Region zur Verfügung gestellt. Angesichts des Setups,

Auslesen der Daten – Die folgenden Daten zeigen, dass uns für jeden Nachfragepunktindex eine historische Nachfrage nach Elektrorollern vorliegt. Hier wird die Nachfrage nach Elektrorollern im Jahr 2018 zur abhängigen Variablen (Y) und historische Nachfragewerte sind die unabhängigen Variablen (x).

Nachfragevorhersage mittels linearer Regression-Mithilfe der linearen Regression können wir die Nachfrage nach Elektrorollern schnell vorhersagen und die Modellfehler mithilfe von RMSE bewerten.

Hier ist ein RMSE von 0,34 außergewöhnlich. Ich sollte also nicht weiter suchen und schnell mit den Prognosen für die Folgejahre fertig werden.

Aber warte! Was wissen wir über die Parameter oder signifikanten Variablen oder die Erklärbarkeit des Modells oder vielleicht, welches Modell besser abschneidet und warum?

Dieses Lernen stammt aus der Inferenzkomponente des überwachten maschinellen Lernaufbaus und sollte als ebenso wichtig angesehen werden wie die Vorhersagekomponente.

Versuchen wir hier, anhand der Regressionsübersichtstabelle einige Fragen zu beantworten.

Lassen Sie mich zunächst diese Übersichtstabelle in drei Abschnitte unterteilen.

(1) Im ersten Abschnitt werden Maßnahmen aufgeführt, die die Anpassung des Regressionsmodells erläutern, dh wie gut das Regressionsmodell an den Datensatz „passen“ kann. Die folgenden Maßnahmen helfen uns, die allgemeine Modellanpassung zu verstehen.

  • R-Quadrat – Dies wird oft als r2 geschrieben und ist auch als . bekannt. Es ist der Anteil der Varianz in der Antwortvariablen, der durch die Prädiktorvariable erklärt werden kann. Der Wert für R-Quadrat kann zwischen 0 und 1 liegen. In diesem Beispiel, das R-Quadrat beträgt 0,965 was darauf hinweist, dass 96,5 % der Schwankungen in der Nachfrage nach Elektrorollern durch die historischen Nachfragezahlen erklärt werden können.
  • F-Statistik- Diese Statistik gibt an, ob das Regressionsmodell eine bessere Anpassung an die Daten bietet als ein Modell, das keine unabhängigen Variablen enthält. Wenn keine der Prädiktorvariablen im Modell statistisch signifikant ist, ist die Gesamt-F-Statistik im Allgemeinen auch nicht statistisch signifikant. Diese Statistik kann sehr nützlich sein, um unter vielen Modellen mit unterschiedlichen unabhängigen Variablen zu testen, welches Modell besser passt.

Ebenso helfen AIC und BIC dabei, einen ähnlichen Einblick in die Modellanpassung zu gewinnen.

(2) Der zweite Abschnitt hilft bei der Übersetzung von Schlussfolgerungen rund um den Koeffizienten Schätzungen, der Standardfehler der Schätzungen, der t-Stat, p-Werte und Konfidenzintervalle für jeden Term im Regressionsmodell.

  • Koeffizienten —Die Koeffizienten liefern uns die Zahlen, die zum Schreiben der geschätzten Regressionsgleichung erforderlich sind. In diesem Beispiel lautet die geschätzte Regressionsgleichung:

Nachfrage nach Elektrorollern im Jahr 2019 = 10,84 + 1,02 * Nachfrage nach Elektrorollern im Jahr 2017

Jeder Koeffizient wird interpretiert als unter der Annahme, dass alle anderen Prädiktorvariablen konstant gehalten werden. Beispielsweise beträgt für jede im Jahr 2017 verkaufte Einheit eines Elektrorollers der durchschnittliche erwartete Anstieg der Nachfrage im darauffolgenden Jahr 1,02 Einheiten. Der Schnittpunkt wird als die erwartete durchschnittliche Nachfrageeinheit für Elektroroller ohne Berücksichtigung ihrer historischen Nachfrage interpretiert.

  • Standardfehler und p-Wert –Der Standardfehler ist ein Maß für die . Die p-Wert-Zahl sagt uns, ob eine bestimmte Antwortvariable im Modell signifikant ist. In diesem Beispiel sehen wir, dass der p-Wert für 0,000 beträgt. Dies deutet darauf hin, dass dies ein wichtiger Indikator für die Nachfrage im Jahr 2018 ist.
  • Konfidenzintervalle für Koeffizientenschätzungen-Die letzten beiden Spalten der Tabelle geben die Unter- und Obergrenzen für ein 95 %-Konfidenzintervall für die Koeffizientenschätzungen an. Die Koeffizientenschätzung beträgt beispielsweise 1,02, diese Schätzung ist jedoch mit einer gewissen Unsicherheit behaftet. Wir können nie sicher wissen, ob dies der genaue Koeffizient ist. Somit liefert uns ein 95 %-Konfidenzintervall einen Bereich wahrscheinlicher Werte für den wahren Koeffizienten. In diesem Fall beträgt das 95 %-Konfidenzintervall für (1,014, 1,028).

(3) Der letzte Abschnitt liefert uns einen Rückschluss auf die Residuen oder Fehler.Schauen wir uns jeden der aufgeführten Werte an:

  • Omnibus/Prob(Omnibus)– ein Test der Schiefe und Kurtosis des Residuums. Wir hoffen auf einen Wert nahe Null, der auf Normalität schließen lässt. Der Prob (Omnibus) führt einen statistischen Test durch, der die Wahrscheinlichkeit angibt, dass die Residuen normalverteilt sind. Wir hoffen, hier etwas in der Nähe von 1 zu sehen. In diesem Fall ist Omnibus relativ hoch und Prob (Omnibus) niedrig, sodass die Daten nicht normal sind.
  • Schräg– ein Maß für die Datensymmetrie. Wir wollen etwas nahe Null sehen, was anzeigt, dass die Restverteilung normal ist. Note dass dieser Wert auch den Omnibus antreibt.
  • Kurtosis– ein Maß für die „Spitze“ oder Krümmung der Daten. Höhere Spitzen führen zu einer stärkeren Kurtosis. Eine größere Kurtosis kann als eine engere Ansammlung von Residuen um Null interpretiert werden, was ein besseres Modell mit wenigen Ausreißern impliziert.
  • Durbin-Watson— Tests auf Homoskedastizität. Wir hoffen, einen Wert zwischen 1 und 2 zu haben. In diesem Fall liegen die Daten nahe beieinander, liegen aber innerhalb der Grenzen.
  • Jarque-Bera (JB)/Prob(JB)– ähnelt dem Omnibus-Test, da er sowohl Schrägstellung als auch Kurtosis testet. Wir hoffen, in diesem Test eine Bestätigung des Omnibus-Tests zu sehen.
  • Bedingungsnummer— Dieser Test misst die Empfindlichkeit der Ausgabe einer Funktion im Vergleich zu ihrer Eingabe. Wenn wir Multikollinearität haben, können wir mit viel größeren Schwankungen bis hin zu kleinen Änderungen in den Daten rechnen. Daher hoffen wir auf eine relativ kleine Zahl, etwas unter 30. In diesem Fall liegen wir mit 152 weit über der Decke.

Zusammenfassend lässt sich sagen, dass die Regressionsübersichtstabelle in diesem Fall weitaus mehr zu sagen hat als der RMSE der Vorhersagekomponente. Wir haben Antworten auf zentrale Fragen wie: (a) Modellanpassung, (b) Einblick in signifikante Variablen und den damit verbundenen Standardfehler sowie ein tiefer Einblick in Residuen.

Transparenz und korrekte Interpretation der Parameter ermöglichen uns eine bessere Kontrolle, um intelligentere Entscheidungen zu treffen.

Kurz gesagt: Eine ausgewogene Perspektive auf Vorhersage und Schlussfolgerung ist entscheidend, um kluge Entscheidungen zu treffen. Beide Komponenten müssen Hand in Hand funktionieren, um das Machine-Learning-Modell für Unternehmen sinnvoll und nützlich zu machen.

Abschließend möchte ich Ihnen für Ihre Geduld danken, die Sie bis zum Ende durchgelesen haben. Wenn Sie diesen Artikel nützlich fanden, dann geben Sie mir ein oder zwei Klatscher! und wenn nicht, schreiben Sie uns bitte mit Ihren Kommentaren und Fragen zurück; Gerne antworte ich und vernetze mich zu einer Diskussion auf LinkedIn.

Verweise:


Verdeutlichen Sie die Macht der Inferenzstatistik, um intelligentere Entscheidungen zu treffen! wurde ursprünglich in Towards AI auf Medium veröffentlicht, wo die Leute das Gespräch fortsetzen, indem sie diese Geschichte hervorheben und darauf reagieren.

Veröffentlicht über Towards AI

Table of Contents