▷ Mathematische Intuition hinter dem Gradient Descent-Algorithmus

Hinweis: Der folgende Artikel hilft Ihnen dabei: Mathematische Intuition hinter dem Gradient Descent-Algorithmus – Auf dem Weg zur KI

Ursprünglich veröffentlicht auf Towards AI, dem weltweit führenden Nachrichten- und Medienunternehmen für KI und Technologie. Wenn Sie ein KI-bezogenes Produkt oder eine KI-bezogene Dienstleistung entwickeln, laden wir Sie ein, darüber nachzudenken, KI-Sponsor zu werden. Bei Towards AI helfen wir bei der Skalierung von KI- und Technologie-Startups. Wir helfen Ihnen dabei, Ihre Technologie der breiten Masse zugänglich zu machen.

Ableitung des Gradientenabstiegsalgorithmus für den mittleren quadratischen Fehler

Autor(en): Pratik Shukla

„Der Geist ist kein Gefäß, das gefüllt werden muss, sondern ein Feuer, das entfacht werden muss.“ — Plutarch

Die Blogreihe „Gradient Descent“:

Der Gradientenabstiegsalgorithmus
Mathematische Intuition hinter dem Gradient Descent-Algorithmus (Sie sind hier!)
Der Gradientenabstiegsalgorithmus und seine Varianten

Inhaltsverzeichnis:

Einführung
Ableitung des Gradientenabstiegsalgorithmus für den mittleren quadratischen Fehler
Arbeitsbeispiel des Gradientenabstiegsalgorithmus
Endnotizen
Referenzen und Ressourcen

Einführung:

Willkommen! Heute arbeiten wir daran, ein starkes mathematisches Verständnis dafür zu entwickeln, wie der Gradient Descent-Algorithmus die besten Werte für seine Parameter findet. Mit diesem Gespür können Sie Fehler in den Ergebnissen des maschinellen Lernens erkennen und noch besser verstehen, wie der Gradientenabstiegsalgorithmus maschinelles Lernen so leistungsstark macht. Auf den folgenden Seiten werden wir die Gleichung des Gradientenabstiegsalgorithmus für die mittlere quadratische Fehlerfunktion ableiten. Wir werden die Ergebnisse dieses Blogs verwenden, um den Gradientenabstiegsalgorithmus zu codieren. Lasst uns eintauchen!

Ableitung des Gradientenabstiegsalgorithmus für den mittleren quadratischen Fehler:

1. Schritt – 1:

Die Eingabedaten werden in der folgenden Matrix angezeigt. Hier können wir beobachten, dass es welche gibt Trainingsbeispiele und Anzahl der Funktionen.

Maße: X = (m, n)

2. Schritt – 2:

Die erwartete Ausgabematrix ist unten dargestellt. Unsere erwartete Ausgabematrix wird eine Größe haben Weil wir es haben Trainingsbeispiele.

Maße: Y = (m, 1)

3. Schritt – 3:

Wir werden unseren zu trainierenden Parametern ein Bias-Element hinzufügen.

Maße: α = (1, 1)

4. Schritt – 4:

In unseren Parametern haben wir unsere Gewichtsmatrix. Die Gewichtsmatrix wird haben Elemente. Hier, ist die Anzahl der Funktionen unseres Trainingsdatensatzes.

Maße: β = (1, n)

5. Schritt – 5:

Die vorhergesagten Werte für jedes Trainingsbeispiel sind gegeben durch:

Bitte beachten Sie, dass wir die Gewichtsmatrix (β) transponieren, um die Dimensionen mit den Matrixmultiplikationsregeln kompatibel zu machen.

Maße: vorhergesagter_Wert = (1, 1) + (m, n) * (1, n)

— Nehmen der Transponierten der Gewichtsmatrix (β) —

Maße: vorhergesagter_Wert = (1, 1) + (m, n) * (n, 1) = (m, 1)

6. Schritt – 6:

Der mittlere quadratische Fehler ist wie folgt definiert.

Maße: Kosten = Skalarfunktion

7. Schritt – 7:

In diesem Fall verwenden wir die folgende Gradientenabstiegsregel, um die besten Parameter zu ermitteln.

Maße: α = (1, 1) & β = (1, n)

8. Schritt – 8:

Finden wir nun die partielle Ableitung der Kostenfunktion in Bezug auf das Bias-Element ().

Maße: (1, 1)

9. Schritt – 9:

Jetzt versuchen wir, die obige Gleichung zu vereinfachen, um die partiellen Ableitungen zu finden.

Maße: u = (m, 1)

10. Schritt – 10:

Basierend auf Schritt 9 können wir die Kostenfunktion wie folgt schreiben:

Maße: Skalarfunktion

11. Schritt – 11:

Als nächstes verwenden wir die Kettenregel, um die partielle Ableitung der Kostenfunktion nach dem Achsenabschnitt zu berechnen ().

Maße: (m, 1)

12. Schritt – 12:

Als nächstes berechnen wir den ersten Teil der partiellen Ableitung von Schritt 11.

Maße: (m, 1)

13. Schritt – 13:

Als nächstes berechnen wir den zweiten Teil der partiellen Ableitung von Schritt 11.

Maße: Skalarfunktion

14. Schritt – 14:

Als nächstes multiplizieren wir die Ergebnisse von Schritt 12 und Schritt 13, um die Endergebnisse zu ermitteln.

Maße: (m, 1)

15. Schritt – 15:

Als nächstes verwenden wir die Kettenregel, um die partielle Ableitung der Kostenfunktion in Bezug auf die Gewichte zu berechnen ().

Maße: (1, n)

16. Schritt – 16:

Als nächstes berechnen wir den zweiten Teil der partiellen Ableitung von Schritt 15.

Maße: (m, n)

17. Schritt – 17:

Als nächstes multiplizieren wir die Ergebnisse von Schritt 12 und Schritt 16, um die Endergebnisse der partiellen Ableitung zu ermitteln.

Nun, da wir es haben wollen Bei Gewichtswerten entfernen wir den Summationsteil aus der obigen Gleichung.

Bitte beachten Sie, dass wir hier den ersten Teil der Berechnungen transponieren müssen, um ihn mit den Matrixmultiplikationsregeln kompatibel zu machen.

Maße: (m, 1) * (m, n)

– Transponierte des Fehlerteils nehmen –

Maße: (1, m) * (m, n) = (1, n)

18. Schritt – 18:

Als nächstes geben wir alle berechneten Werte in Schritt 7 ein, um die Gradientenregel für die Aktualisierung zu berechnen α.

Maße: α = (1, 1)

19. Schritt – 19:

Als nächstes geben wir alle berechneten Werte in Schritt 7 ein, um die Gradientenregel für die Aktualisierung zu berechnen .

Bitte beachten Sie, dass wir den Fehlerwert transponieren müssen, um die Funktion mit den Matrixmultiplikationsregeln kompatibel zu machen.

Maße: β = (1, n) — (1, n) = (1, n)

Arbeitsbeispiel des Gradientenabstiegsalgorithmus:

Nehmen wir nun ein Beispiel, um zu sehen, wie der Gradientenabstiegsalgorithmus die besten Parameterwerte findet.

1. Schritt – 1:

Die Eingabedaten werden in der folgenden Matrix angezeigt. Hier können wir beobachten, dass es welche gibt Trainingsbeispiele und Merkmale.

2. Schritt – 2:

Die erwartete Ausgabematrix ist unten dargestellt. Unsere erwartete Ausgabematrix wird eine Größe haben Weil wir es haben Trainingsbeispiele.

3. Schritt – 3:

Wir werden unseren zu trainierenden Parametern ein Bias-Element hinzufügen. Hier wählen wir den Anfangswert 0 für die Voreingenommenheit.

4. Schritt – 4:

In unseren Parametern haben wir unsere Gewichtsmatrix. Die Gewichtsmatrix besteht aus 2 Elementen. Hier ist 2 die Anzahl der Funktionen unseres Trainingsdatensatzes. Zunächst können wir beliebige Zufallszahlen für die Gewichtsmatrix wählen.

5. Schritt – 5:

Als nächstes werden wir die Werte mithilfe unserer Eingabematrix, Gewichtsmatrix und Bias vorhersagen.

6. Schritt – 6:

Als nächstes berechnen wir die Kosten mithilfe der folgenden Gleichung.

7. Schritt – 7:

Als nächstes berechnen wir die partielle Ableitung der Kostenfunktion in Bezug auf das Bias-Element. Wir verwenden dieses Ergebnis im Gradientenabstiegsalgorithmus, um den Wert des Bias-Parameters zu aktualisieren.

8. Schritt – 8:

Als nächstes berechnen wir die partielle Ableitung der Kostenfunktion nach der Gewichtsmatrix. Wir verwenden dieses Ergebnis im Gradientenabstiegsalgorithmus, um den Wert der Gewichtsmatrix zu aktualisieren.

9. Schritt – 9:

Als nächstes definieren wir den Wert der Lernrate. Die Lernrate ist der Parameter, der die Geschwindigkeit steuert, mit der unser Modell lernt.

10. Schritt – 10:

Als nächstes verwenden wir die Gradientenabstiegsregel, um den Parameterwert des Bias-Elements zu aktualisieren.

11. Schritt – 11:

Als nächstes verwenden wir die Gradientenabstiegsregel, um die Parameterwerte der Gewichtsmatrix zu aktualisieren.

12. Schritt – 12:

Nun wiederholen wir diesen Vorgang für eine Reihe von Iterationen, um die besten Parameter für unser Modell zu finden. In jeder Iteration verwenden wir die aktualisierten Werte unserer Parameter.

Endnotizen:

So finden wir die aktualisierten Regeln mithilfe des Gradientenabstiegsalgorithmus für den mittleren quadratischen Fehler. Wir hoffen, dass dies Ihre Neugier geweckt und Ihren Appetit auf mehr Wissen über maschinelles Lernen geweckt hat. Wir werden die hier abgeleiteten Regeln verwenden, um den Gradient Descent-Algorithmus in zukünftigen Blogs zu implementieren. Verpassen Sie also nicht den dritten Teil der Gradient Descent-Reihe, in dem alles zusammenkommt – das große Finale!

Zitat:

Für die Quellenangabe im akademischen Kontext zitieren Sie dieses Werk bitte wie folgt:

Shukla, et al., „Mathematische Intuition hinter dem Gradientenabstiegsalgorithmus“, Towards AI, 2022

BibTex-Zitat:

@article{pratik_2022, title={Mathematische Intuition hinter dem Gradient Descent-Algorithmus}, url={https://towardsai.net/neural-networks-with-python}, journal={Towards AI}, editor={Towards AI Co .}, Autor={Pratik, Shukla}, Herausgeber={Lauren, Keegan}, Jahr={2022}, Monat={Okt}}

Referenzen und Ressourcen:

Gradientenabstieg – Wikipedia

Die mathematische Intuition hinter dem Gradient Descent-Algorithmus wurde ursprünglich in Towards AI auf Medium veröffentlicht, wo die Leute das Gespräch fortsetzen, indem sie diese Geschichte hervorheben und darauf reagieren.

Veröffentlicht über Towards AI

Table of Contents

Mathematische Intuition hinter dem Gradient Descent-Algorithmus – Auf dem Weg zur KI

Ableitung des Gradientenabstiegsalgorithmus für den mittleren quadratischen Fehler

Die Blogreihe „Gradient Descent“:

Inhaltsverzeichnis:

Einführung:

Ableitung des Gradientenabstiegsalgorithmus für den mittleren quadratischen Fehler:

1. Schritt – 1:

2. Schritt – 2:

3. Schritt – 3:

4. Schritt – 4:

5. Schritt – 5:

6. Schritt – 6:

7. Schritt – 7:

8. Schritt – 8:

9. Schritt – 9:

10. Schritt – 10:

11. Schritt – 11:

12. Schritt – 12:

13. Schritt – 13:

14. Schritt – 14:

15. Schritt – 15:

16. Schritt – 16:

17. Schritt – 17:

18. Schritt – 18:

19. Schritt – 19:

Arbeitsbeispiel des Gradientenabstiegsalgorithmus:

1. Schritt – 1:

2. Schritt – 2:

3. Schritt – 3:

4. Schritt – 4:

5. Schritt – 5:

6. Schritt – 6:

7. Schritt – 7:

8. Schritt – 8:

9. Schritt – 9:

10. Schritt – 10:

11. Schritt – 11:

12. Schritt – 12:

Endnotizen:

Zitat:

BibTex-Zitat:

Referenzen und Ressourcen:

Mehr lesen: