Technologische Neuigkeiten, Bewertungen und Tipps!

Wie mir die explorative Datenanalyse geholfen hat, Millionen-Dollar-Probleme zu lösen … – Auf dem Weg zur KI

Hinweis: Der folgende Artikel hilft Ihnen dabei: Wie mir die explorative Datenanalyse geholfen hat, Millionen-Dollar-Probleme zu lösen … – Auf dem Weg zur KI

Ursprünglich veröffentlicht auf Towards AI.

EDA ist eine leistungsstarke Methode, um aus den Daten Erkenntnisse zu gewinnen, die viele unlösbare Probleme im Unternehmen lösen können. In einer zunehmend wettbewerbsintensiven Welt trägt das Verständnis der Daten und das Ergreifen schnellerer Maßnahmen auf dieser Grundlage dazu bei, dass sich das Unternehmen von der Konkurrenz abhebt und an der Spitze bleibt!

Bevor ich fortfahre, möchte ich die im Internet erwähnte offizielle Definition mitteilen

Bei der explorativen Datenanalyse (EDA) handelt es sich um einen Prozess zur Analyse von Datensätzen, um ihre Hauptmerkmale zusammenzufassen [1][2], oft unter Verwendung statistischer oder grafischer Techniken. Es dient dazu, Trends zu entdecken [2]Muster, Beziehungen und Anomalien in Daten und können bei der Entwicklung komplexerer Modelle hilfreich sein [3]. Es kann auch verwendet werden, um Hypothesen zu erstellen und zu testen, wichtige Variablen zu identifizieren, Ausreißer zu erkennen und Beziehungen zwischen Variablen zu bewerten. EDA ist ein iterativer Prozess und wird verwendet, um verborgene Erkenntnisse aufzudecken und Beziehungen innerhalb der Daten aufzudecken.

Lassen Sie mich Ihnen die Definition von EDA in Form einer Geschichte erklären. Diese Geschichte ist für mich sehr persönlich, da dieser Moment meine Überzeugung bestärkte, in den Bereich der Datenwissenschaft einzusteigen und ihn weiter zu erforschen, um eine soziale Wirkung in der Welt zu erzielen.

Haftungsausschluss: – Ich möchte die Organisation, zu der diese Geschichte gehört, nicht nennen, um die Offenlegung vertraulicher Informationen zu vermeiden.

Wenn ich viele Neulinge interviewe, geht es in ihrer Geschichte normalerweise um den Einstieg in die Datenwissenschaft, wie sie so genannt wird der sexieste Job des 21. Jahrhunderts. Aber ich habe mich nicht so sehr mit der Datenwissenschaft beschäftigt, wie sie bekannt ist. Mein Fall war rein zufällig und von Neugier getrieben.

Ich begann meine Reise als Softwareentwickler rund um Technologien wie Web Stack, einschließlich . Ich entwickelte eine große Leidenschaft für die Entwicklung von Produkten, bei denen ich die Wirkung direkt vor mir sehen konnte. Zu diesem Zweck begann ich, mehr Verantwortung zu übernehmen, z.

Eines Tages beendete ich meine zugewiesene Arbeit und hörte, wie sich ein leitender Geschäftskollege bei meinem Abteilungsleiter über die Datenzugänglichkeit beschwerte. Er erwähnte, dass sein Team versuchte, Geschäftsberichte herunterzuladen. Die meisten Downloads schlugen fehl oder waren sehr langsam, was die Effizienz seines Teams beeinträchtigte und jeden Tag zu Unzufriedenheit mit der Arbeit führte.

Aus diesem Grund fragten sie meine technische Abteilung. Er beschließt, weitere High-End-Server und Hochgeschwindigkeitsinternet hinzuzufügen und Laptops mit viel Speicher zu kaufen, damit sein Team die Berichtsdaten einsehen kann, da es Schwierigkeiten hat, die heruntergeladenen Dateien zu glätten, falls sie heruntergeladen werden. Dies bedeutete eine enorme Nachfrage nach IT-Investitionen.

Ich habe mich freiwillig gemeldet, mir das Problem anzusehen und habe die folgenden Schritte durchgeführt.

Zuerst erhielt ich Zugriff auf das Datenberichtssystem, damit ich die Daten aus der Serverprotokollierungsdatenbank herunterladen konnte. Die Daten lagen im JSON-Format vor und mussten daher in ein leicht verständliches Format wie CSV oder ein anderes Tabellenformat konvertiert werden.

Deshalb hatte ich vor, Pandas zu verwenden, und es waren nur ein paar MB groß, sodass ich die Analyse auf meinem Laptop mit 16 GB RAM durchführen konnte.

Dann habe ich diese Serverprotokolle im JSON-Format in Jupyter Notebook geladen und verschiedene Bibliotheken wie Pandas und Matplotlib installiert. Mit Pandas habe ich JSON-Dateien in einen Datenrahmen geladen, damit ich Datentransformationen durchführen konnte, z. B. das Extrahieren der Tagesstunden für alle Datensätze usw.

Weitere Informationen zu solchen Transformationsvorgängen finden Sie unter https://towardsdatascience.com/how-to-convert-json-into-a-pandas-dataframe-100b2ae1e0d8

Pandas hat mir geholfen, Daten in ein leicht zu analysierendes Format umzuformatieren, und Matplotlib hat mir dabei geholfen, die Diagramme auf den Daten zu zeichnen

Wenn Sie als Anfänger anhand eines Beispieldatensatzes tief in Pandas und Matplotlib eintauchen möchten, können Sie dem Video unten folgen.

Als nächstes habe ich Muster und Grundlagen gefunden, auf denen ich Diagramme gezeichnet habe, z Downloads erfolgen durch den Benutzer oder Server-CPU-Auslastung nach Stunden des Tages usw. Was ich bekam, war etwas Verblüffendes.

3 einfache, aber umsetzbare Erkenntnisse!

  1. Alle Benutzer im gesamten Unternehmen luden morgens zwischen beispielsweise 10 und 11 Uhr alle Daten herunter, und den Rest des Tages waren die Server völlig im Leerlauf.
  2. Als ich mit dem Team darüber diskutierte, mussten sie außerdem die irrelevanten Daten entfernen, nachdem sie alle Daten heruntergeladen hatten, und je größer die Datenbank wurde, desto größer wurde auch die Downloadgröße.
  3. Es gab Benutzer, die die Daten nicht benötigten, sie aber dennoch anforderten und diese Daten auch per E-Mail austauschten.

Maßnahmen, die ergriffen wurden, um die oben genannten Erkenntnisse zu gewinnen

  1. Die maximale Serverkapazität wurde nur für ein paar Minuten am Tag benötigt, wenn der Benutzer Datenzugriff benötigte. Deshalb haben wir eine skalierbare Lösung entwickelt, um die Servergröße dynamisch anzupassen optimale Ausnutzung, Dabei handelt es sich um eine Version heutiger Serverless-Computing-Systeme. Daher würde dem Server nur die Zeit in Rechnung gestellt, die Benutzer für die Berichte entsprechend der Größe der Abfrage angefordert haben.
  2. A UI-Schnittstelle wurde entwickelt, um relevante Filter bereitzustellen, sodass nur erforderliche Daten von den Benutzern heruntergeladen werden können, z. B. teamweiser Zugriff auf begrenzte Berichte. Später haben wir dies automatisiert, um das Business Intelligence- und Reporting-Tool mit aggregierten und detaillierten Diagrammen zu vervollständigen.
  3. Datenamt — Den Benutzern wurden je nach Bedarf unterschiedliche Rollen zugewiesen, sodass sie nur auf die Daten zugreifen konnten, auf die sie Zugriff haben sollten.

Profitieren Sie von den oben genannten Erkenntnissen

  1. Durch die optimale Auslastung der Serverkapazität konnten die Serverkosten um 2 Stunden statt 24 Stunden gesenkt werden.
  2. Verbesserte Effizienz des Teammitglieds aufgrund der Geschwindigkeit des Herunterladens bei gleichzeitiger Bereitstellung relevanter Daten ohne den Kauf neuer High-End-Laptops, was zu unvermeidlichen IT-Infrastrukturausgaben führt
  3. Ermöglichen Sie Datenkonformität und -sicherheit

Bisher ist alles, was ich erklärt habe, nichts anderes als ein explorativer Datenanalyseprozess. Mir gefiel die folgende Darstellung eines Arbeitsablaufs

Ich hoffe, Sie verstehen, wie die Untersuchung von Daten ohne eine Annahme oder Hypothese einfache, aber umsetzbare Erkenntnisse oder sogar neue Ziele liefern kann. Diese Erkenntnisse wirken sich positiv auf das Unternehmen aus, indem sie Möglichkeiten zur Umsatzgenerierung oder Kostensenkung eröffnen.

Nun ist die obige Geschichte, die ich geteilt habe, nur für strukturierte Daten etwa mit Zeilen und Spalten.

Nachdem ich nun über strukturierte Daten gesprochen habe, sollten Sie sich darüber im Klaren sein, dass es zwei Arten von Daten gibt – strukturierte und unstrukturierte Daten. Für ein detaillierteres Verständnis können Sie diesen tollen Artikel hier lesen

Im Laufe meiner Karriere hatte ich das Glück, zahlreiche Möglichkeiten für fortgeschrittene Analysen in den Bereichen Logistik, E-Commerce, Einzelhandel, Gesundheitswesen, Hypotheken, CRM usw. zu haben. Bei all den Projekten, die ich in diesen Jobs durchgeführt habe, EDA war immer der erste Schritt zur Wertschöpfung aus Daten.

Laut IDC werden bis 2025 80 % der weltweiten Daten unstrukturiert sein.

Quelle: https://deep-talk.medium.com/80-of-the-worlds-data-is-unstructured-7278e2ba6b73

Unstrukturiert liegt vor allem die Form von Bildern, Videos und Dokumenten vor. Es gibt so viele Kurse und Tools für EDA mit strukturierten Daten, aber nicht viele mit unstrukturierten Daten wie NLP und Computer Vision-bezogenen Analysen.

EDA ist der grundlegende Schritt hin zu allen grundlegenden Analyse- oder fortgeschrittenen Analyseprojekten wie prädiktiver Modellierung, künstlicher Intelligenz und nachgelagerter Analyse im Zusammenhang mit maschinellem Lernen, die bei der Lösung von Anwendungsfällen wie selbstfahrendem Fahren, medizinischer Bildgebung, autonomen Landwirtschaftsrobotern und visionären Lösungen hilft. B. vorausschauende Wartung, auf Satellitenbildern basierende Versicherungen usw.

In gewisser Weise haben wir als Community gerade die EDA für strukturierte Daten vereinfacht, die nur weniger als 10–15 % der gesamten von einer Organisation oder über das Internet gesammelten Daten ausmacht.

Stellen Sie sich vor, wie großartig es wäre, wenn wir alle Daten analysieren und diese für Vorhersagemodelle oder Analysen verwenden würden. Diese Modelle werden tiefere Geschäftserkenntnisse besser widerspiegeln.

Der Zeitaufwand für eine EDA hängt von der Komplexität des Datensatzes und den spezifischen Zielen der Analyse ab. Im Allgemeinen empfehlen Experten Ausgaben mindestens 10 bis 20 Prozentder gesamten Projektzeit auf EDA.

Dazu gehören Aktivitäten wie das Erkunden der Daten, das Erkennen von Mustern und das Bewerten der Datenqualität. Darüber hinaus sollte die explorative Datenanalyse während des gesamten Projekts erneut überprüft werden, um sicherzustellen, dass die aus den Daten gewonnenen Erkenntnisse gültig und relevant bleiben. Aber meiner Erfahrung nach ist es die Zeit wert, da dadurch viele neue Innovationen und sogar Produkte entstehen können.

Meine letzte Frage an Sie!

Sind Sie der gleichen Meinung über die Bedeutung der explorativen Datenanalyse, insbesondere für strukturierte und unstrukturierte Daten zusammen?

Wenn ja, lassen Sie uns über Linkedin in Kontakt treten, während ich interessante und neue Aspekte im Bereich der Computer-Vision-Datenaufbereitung schreibe, und ich freue mich, darüber zu chatten.


„How Exploratory Data Analysis Helped Me Solve Million-Dollar Business Problems“ wurde ursprünglich in „Towards AI“ auf Medium veröffentlicht, wo die Leute das Gespräch fortsetzen, indem sie diese Geschichte hervorheben und darauf reagieren.

Veröffentlicht über Towards AI