Technologische Neuigkeiten, Bewertungen und Tipps!

So überprüfen Sie die Annahmen der linearen Regression – Auf dem Weg zur KI

Hinweis: Der folgende Artikel hilft Ihnen dabei: So überprüfen Sie die Annahmen der linearen Regression – Auf dem Weg zur KI

Ursprünglich veröffentlicht auf Towards AI, dem weltweit führenden Nachrichten- und Medienunternehmen für KI und Technologie. Wenn Sie ein KI-bezogenes Produkt oder eine KI-bezogene Dienstleistung entwickeln, laden wir Sie ein, darüber nachzudenken, KI-Sponsor zu werden. Bei Towards AI helfen wir bei der Skalierung von KI- und Technologie-Startups. Wir helfen Ihnen dabei, Ihre Technologie der breiten Masse zugänglich zu machen.

Was sind die Annahmen der linearen Regression? und wie man die Annahmen überprüft

Die lineare Regression ist ein Modell, das die Beziehung zwischen unabhängigen Variablen und einer abhängigen Variablen mithilfe einer geraden Linie schätzt. Um jedoch ein lineares Regressionsmodell verwenden zu können, müssen wir einige Annahmen überprüfen.

Die 5 Hauptannahmen der linearen Regression sind:

  1. Eine lineare Beziehung zwischen abhängigen und unabhängigen Variablen.
  2. Keine/sehr geringe Multikollinearität.
  3. Normalität der Residuen
  4. Homoskedastizität
  5. Keine Autokorrelation von Fehlern

Lassen Sie uns jede der oben genannten Annahmen mithilfe von Python-Code im Detail verstehen.

Importieren Sie die erforderlichen Bibliotheken und lesen Sie den Datensatz.

Trennen Sie die abhängigen und unabhängigen Features und teilen Sie die Daten wie unten gezeigt in Trainings- und Testsätze auf.

Erstellen Sie ein lineares Regressionsmodell und berechnen Sie die Residuen.

Lassen Sie uns die Annahmen der linearen Regression für die obigen Daten überprüfen.

1. Lineare Beziehung

Um eine lineare Regression durchzuführen, besteht die erste und wichtigste Annahme darin, dass eine lineare Beziehung zwischen den unabhängigen und den abhängigen Merkmalen besteht. Bedeutet: Wenn der Wert von X zunimmt, sollte auch der Wert von y linear steigen oder fallen. Wenn mehrere unabhängige Features vorhanden sind, sollte jedes der unabhängigen Features eine lineare Beziehung zum abhängigen Feature haben.

Wir können diese Annahme mithilfe eines Streudiagramms wie unten gezeigt überprüfen.

In den obigen Streudiagrammen können wir deutlich sagen, dass die Merkmale 1 und 3 eine klare lineare Beziehung zum Ziel haben. Merkmal 2 hat jedoch keine lineare Beziehung zum Ziel.

2. Multikollinearität

Multikollinearität ist ein Szenario, in dem zwei der unabhängigen Merkmale hoch sind korreliert. Nun stellt sich also die Frage, was ist Korrelation? Korrelation ist das Szenario, in dem zwei Variablen stark miteinander verknüpft sind.

Wenn wir beispielsweise einen Datensatz haben, wo Alter Und langjährige Erfahrung sind die beiden unabhängigen Merkmale in unserem Datensatz. Es ist sehr wahrscheinlich, dass mit zunehmendem Alter auch die Erfahrungsjahre zunehmen. In diesem Fall sind es also Alter und Jahre Erfahrung sehr positiv korreliert.

Wenn wir „Alter“ und „years_left_to_retire“ als unabhängige Merkmale haben, dann nimmt mit zunehmendem Alter „years_left_to_retire“ ab. Hier sagen wir also, dass es sich um zwei Funktionen handelt stark negativ korreliert.

Wenn wir eines der oben genannten Szenarios haben (starke positive Korrelation oder negative Korrelation), dann sagen wir, dass dies der Fall ist Multikollinearität.

Mithilfe einer Korrelationsmatrix oder VIF können wir überprüfen, ob in unseren Daten Multikollinearität vorliegt, wie in der folgenden Abbildung dargestellt.

Aus dem obigen VIF und der Korrelationsmatrix können wir sagen, dass in unserem Datensatz keine Multikollinearität vorliegt.

Wenn Sie daran interessiert sind, Multikollinearität im Detail zu verstehen, lesen Sie bitte meinen Blog darüber, warum Multikollinearität ein Problem ist

Warum ist Multikollinearität ein Problem?

3. Normalität der Residuen

Rest = tatsächlicher y-Wert – vorhergesagter y-Wert. Ein negatives Residuum bedeutet, dass der vorhergesagte Wert zu hoch ist. Wenn Sie ein positives Residuum haben, bedeutet dies, dass der vorhergesagte Wert zu niedrig war. Das Ziel einer Regressionsgeraden besteht darin, die Summe der Residuen zu minimieren.

Die Annahme besagt, dass, wenn wir das Residuum grafisch darstellen, das Diagramm normal oder einigermaßen normal sein sollte.

Wir können diese Annahme mithilfe des KDE-Plots und des QQ-Plots überprüfen, wie unten gezeigt.

4. Homoskedastizität

Homo bedeutet Dasselbe Und Skedastizität bedeutet zerstreuen/ausbreiten. Die Bedeutung von Homoskedastizität liegt also in der gleichen Streuung. Damit ist die Bedingung gemeint, dass die Varianz des Residuums oder Fehlerterms in einem Regressionsmodell konstant ist.

Wenn wir die Residuen darstellen, sollte die Streuung gleich sein. Wir können dies überprüfen, indem wir ein Streudiagramm verwenden, bei dem die x-Achse die Vorhersagen und die y-Achse die Residuen enthält, wie in der folgenden Abbildung dargestellt.

Die Residuen sind gleichmäßig verteilt, was die Annahme einer Homoskedastizität stützt.

5. Keine Autokorrelation von Fehlern

Diese Annahme besagt, dass zwischen den Residuen keine Beziehung bestehen sollte. Dies kann überprüft werden, indem die Residuen wie in der folgenden Abbildung dargestellt aufgetragen werden. Die Handlung sollte keine bestimmten Muster ergeben.


How to Verify the Assumptions of Linear Regression wurde ursprünglich in Towards AI auf Medium veröffentlicht, wo die Leute das Gespräch fortsetzen, indem sie diese Geschichte hervorheben und darauf antworten.

Veröffentlicht über Towards AI