Technologische Neuigkeiten, Bewertungen und Tipps!

So erstellen Sie einen benutzerdefinierten Crawler mit Colab und Advertools

Hinweis: Der folgende Artikel hilft Ihnen weiter: So erstellen Sie einen benutzerdefinierten Crawler mit Colab und Advertools

In diesem Video sprechen wir darüber, wie wir mit Google Colab, Advertools und einigen anderen Python-Bibliotheken unseren eigenen benutzerdefinierten Crawler erstellen können. Bevor Sie Angst bekommen oder sich aus dem Staub machen, tun Sie es nicht. Tief durchatmen. Es wird okay sein. Ich behaupte nicht einmal, ein Programmierer zu sein, aber was ich ziemlich gut kann, ist Kopieren und Einfügen. Ich weiß, dass Sie die Tastenkombination Strg+C genauso gut verwenden können wie ich. Werfen wir einen Blick darauf, wie wir unseren eigenen benutzerdefinierten SEO-Crawler erstellen und wie wir ihn einsetzen können, um einige einzigartige Probleme zu lösen.

Ressourcen

Videotranskript:

Schauen wir uns an, wie wir mit Google Colab sowie Advertools und der Python-Bibliothek einen benutzerdefinierten Crawler erstellen können.

Was ist ein SEO-Crawler (Spider)?

Crawler sind Tools, die Website-Seiten ähnlich wie eine Suchmaschine crawlen können und uns dabei helfen, wertvolle SEO-Informationen zu gewinnen. Es hilft uns, die Website so zu sehen, wie Google, Bing oder andere Suchmaschinen unsere Website sehen würden. Es gibt Tools, die dies tun. Es gibt eine Reihe von Tools, die dies tun. Das beliebteste ist wahrscheinlich Screaming Frog SEO Spider, und es ist ein Tool, das wir lieben und ständig nutzen, aber manchmal brauchen wir eine individuelle Lösung.

Warum sollten Sie Ihren eigenen Crawler erstellen?

Die meisten Crawler von der Stange leisten erstaunliche Dinge, aber manchmal haben Sie eine bestimmte Frage, die beantwortet werden muss, und Sie können einen benutzerdefinierten Crawler erstellen, um alle Ausgaben zu steuern. Sie erhalten nur die Daten, die Sie wollen oder brauchen. Auf diese Weise müssen Sie nicht durch die Einrichtung eines Tools eingeschränkt sein, sondern können einen schnellen Crawl einer Website durchführen oder nur eine einzelne Information abrufen oder eine ganze Menge Informationen abrufen und diese auf andere Weise organisieren, z Colab Und Python.

Was ist Advertools?

Advertools ist eine Python-Bibliothek, mit der Sie viele Dinge tun können. Sie können Websites crawlen, Schlüsselwörter für Ihre Suchmaschinenmarketingkampagnen generieren, Textanzeigen erstellen, SERPs analysieren, Einblicke in Social-Media-Beiträge gewinnen und vieles mehr. Es ist eine äußerst flexible Bibliothek. Es macht viele coole Dinge und ist ziemlich einfach zu bedienen.

Ich würde mich nicht als Programmierer bezeichnen. Ich würde nur sagen, dass ich gut im Kopieren und Einfügen bin. Auch wenn ich kein versierter Python-Programmierer bin, konnte ich durch die Verwendung eines Tools wie Advertools viele Vorteile ziehen.

Was wir tun werden

Das werden wir in diesem Video tun.

  1. Erstellen Sie eine neue Colab-Datei und installieren Sie Advertools
  2. Erstellen Sie mit Advertools einen benutzerdefinierten Crawler
  3. Crawlen und analysieren Sie die Website und die Daten
  4. Visualisieren Sie einige dieser Ergebnisse mit einer anderen Python-Bibliothek namens Plotly
  5. Exportieren Sie die Daten

Schritt 1: Erstellen Sie eine Colab-Datei und installieren Sie Advertools

Google Colab ist ein Tool, mit dem Sie eine Reihe cooler Dinge tun können. Es ermöglicht Ihnen, Code in Zellen auszuführen, um Tabellen zu erstellen, Ihre eigenen Programme zu erstellen, benutzerdefinierte Dinge zu tun, alles von maschinellem Lernen bis SEO und mehr. Wenn Sie es noch nie zuvor verwendet haben, ist die Nutzung kostenlos und Sie können die Rechenleistung von Google kostenlos nutzen. Es ist sehr cool, daher empfehle ich Ihnen dringend, sich das anzuschauen.

Wenn Sie CoLab noch nicht nutzen, finden Sie hier viele tolle Ressourcen. Eines der Dinge, die Sie tun müssen, um eine Bibliothek außerhalb von Python zu verwenden, ist die natürliche Installation. Sie müssen dieses Programm installieren. Meistens verwenden Sie eine Funktion namens PIP und rufen dann die neue Bibliothek ab. Es handelt sich um einen recht einfachen Prozess.

Eines der Dinge, die all diese Leute tun, die diese Programme erstellen, ist, dass sie Ihnen in ihren Dokumenten genau zeigen, wie man es einrichtet. Also immer lesen diese Dokumente und es wird Ihnen helfen zu verstehen: „Wie importiere ich diese Tools und bringe sie für mich selbst zum Laufen?“

Um Advertools zu installieren, verwenden wir diese Codezeile hier:

!pip Advertools installieren

Sobald Sie den Code hier in den Zellenblock in CoLab eingefügt haben, klicken Sie auf die Play-Taste. Dieser Codeblock wird ausgeführt. Sie sollten so etwas sehen, wo der Code und das gesamte Paket hier installiert werden, sodass wir diese Bibliothek nun zum Erstellen unseres Crawlers verwenden können. Sobald Sie das grüne Häkchen sehen, wissen Sie, dass es fertig ist.

Schritt 2: Erstellen Sie mit Advertools einen benutzerdefinierten Crawler

Als nächstes wollen wir eine neue Codezeile ausführen.

Advertools als Adv importieren

von Advertools Import Crawl

Pandas als PD importieren

Sie können hier auf die Schaltfläche „Code“ klicken und dieser neue Code wird ausgefüllt. Wir werden einige spezifische Teile der Advertools-Bibliothek importieren. Wir importieren Advertools, wir importieren die Crawl-Methode. Wir importieren auch etwas namens Pandas. Für diejenigen unter Ihnen, die mit Python nicht vertraut sind: Mit Pandas können wir mit unseren Daten innerhalb von Datenrahmen arbeiten und im Grunde genommen Tabellen in Python erstellen.

Sobald Sie dies alles eingerichtet haben, führen Sie Ihren Code erneut aus. Dadurch werden alle diese Informationen importiert. Wenn wir einen Crawl erstellen, werden Sie hier bemerken, dass es darum geht, wie wir das machen können, wie wir diese Crawls importieren können. Es gibt einige Ansätze; Sie können Advertools wie wir importieren und diese Befehlszeile ausführen, die das tut, was wir tun.

Ich möchte Colab ein wenig benutzerfreundlicher gestalten, falls jemand in meinem Team es ebenfalls nutzen möchte. Wir werden etwas anderes machen als das, was sie hier zeigen. Aber wenn Sie diesem Ansatz folgen, werden Sie es richtig machen und es wird auch funktionieren.

site = “https://simplifiedsearch.net/” #@param {type:”string”}

crawl(site, ‘simp.jl’, follow_links=True)

crawl_df = pd.read_json(‘simp.jl’,lines=True)

crawl_df.head()

Was wir tun werden, ist diese Codezeile. Als Erstes definieren wir eine Variable und die Variable wird die Website sein, die wir crawlen möchten. Durch die Verwendung dieser Parametertypzeichenfolge erhalte ich hier ein Feld, in das ich dann hier eingeben kann, welche Website ich crawlen möchte. Ich kann meine Website hier einstellen. Ich kann jede Website hier einfügen und diese Variable wird für mich festgelegt. Auf diese Weise muss ich es hier nicht eingeben. Ich kann es einfach in ein Formular eingeben und jemand, der sich nicht so gut damit auskennt, in das Zellenfeld zu klicken, könnte einfach hierher gehen und eine Seite heraustippen.

In diesem Fall werden wir unsere vereinfachte Suchseite verwenden, einfach weil wir sie ständig verwenden würden. Wir werden es hier einfügen. Direkt darunter befolgen wir genau die gleichen Regeln, die sie hier festgelegt haben. Wir verwenden Advertools.crawl und verwenden dann die Site als unsere Variable. Wir haben eine Ausgabedatei. Dann möchten wir, dass es den Links innerhalb der Website folgt.

Wir machen auch den nächsten Schritt, in dem wir den Crawl-Datenrahmen festlegen und ihn anweisen, unsere Ausgabedatei zu öffnen, da sie in JSON ausgegeben wird. Die Pandas werden den JSON lesen und einen Datenrahmen für uns erstellen. Am Ende sage ich uns, dass wir nur den Kopf dieses Datenrahmens zeigen sollen, um sicherzustellen, dass alles wie vorgesehen funktioniert. Sobald wir diesem Schritt folgen und diese Zelle ausführen, crawlen wir die Website und es wird unten ein Daten-Dump erstellt, und wir können alle verschiedenen Funktionen innerhalb dieses Crawls sehen.

Ich werde weitermachen und diese Zelle leiten. Es kann einige Minuten dauern, da die gesamte Website gecrawlt wird. Sobald wir fertig sind, sprechen wir darüber, wie wir die Crawling-Daten nutzen können, um bestimmte Informationen abzurufen.

Schritt 3: Crawlen und analysieren Sie die Website und die Daten

Jetzt wurde die Website gecrawlt und Sie können sehen, dass ich eine Liste mit URLs, Titeln, Meta-Beschreibungen, Standpunkt, Zeichensatz, H1s, H2s und H3s habe. Alle diese Informationen werden in diesen Rahmen gezogen. Wenn Sie es etwas übersichtlicher sehen möchten, können Sie hier auf diesen magischen Knopf klicken und Google wird diese Daten hier in einen etwas einfacher zu bearbeitenden Datenrahmen übertragen. Ich habe hier eine Gesamtzahl von 266 Spalten. Das sind viele Spalten, mit denen ich arbeiten kann.

Sie fragen sich vielleicht, was in all diesen Spalten steht. Wir können hier zu den Advertools zurückkehren und Sie können alle verschiedenen Elemente sehen. Es gibt eine Menge Exportdaten, die wir uns ansehen und viele interessante Informationen abrufen können.

Wenn wir eine Liste aller verfügbaren Spalten sehen möchten, können wir diesen Code ausführen:

Wir müssen zuerst die Spalten nehmen und daraus eine Liste erstellen. Wir verwenden die Codeliste und setzen dann Klammern und innerhalb ihrer crawl_DF, die der Name unseres Datenrahmens ist, die neuen Listenspalten. Hier haben wir Spalten, und wir führen diese Zelle aus, und Sie können alle diese verschiedenen möglichen Spalten sehen. Es sind ziemlich viele Informationen, wie Sie sehen können, es wird nach einer Menge Informationen gesucht.

Was ist, wenn Sie nur einen Teil dieser Informationen sehen möchten? Was wäre, wenn Sie nur alle Titel oder alle Meta-Beschreibungen oder einige der H-Tag-Informationen erhalten möchten oder vielleicht alle Seiten und die Art des schema.org-Markups sehen möchten, das Sie möglicherweise darauf haben? Hier ist es praktisch, etwas wie Advertools zu haben.

Nehmen wir an, wir wollten uns die JSON-LD-Typen auf unseren Seiten ansehen.

json_df = crawl_df[[‘url’, ‘jsonld_@type’ ]]

json_df

Wir können mit etwas neuem Code beginnen. Lassen Sie uns fortfahren und einen neuen Datenrahmen namens JSON-DF erstellen. Wir möchten einige Informationen aus unserem ursprünglichen Datenrahmen erhalten. Das erste, was wir tun wollen, ist, dass ich hier ein wenig nach unten gehe, um es allen einfacher zu machen, zu kriechen, _DF. Wir werden eine Klammer und eine weitere Klammer verwenden.

Das erste, was wir abrufen möchten, ist die URL. Wir wissen, dass URLs wichtig sind, da wir alle Seiten unserer Website und alle URLs kennen müssen. Als nächstes wollen wir den JSON-Typ finden. Wir können zu dieser Liste zurückkehren und zum JSON-Typ gehen, diesen kopieren und sagen: „Ich möchte auch den JSON-Typ wissen.“ Ich werde weiterhin dafür sorgen, dass dies konsistent bleibt, damit wir Best Practices befolgen. Was machen wir hier in dieser kleinen Zeile? Wir sagten „Erstellen Sie einen neuen Datenrahmen“ und verwenden Sie die Daten aus unserer Originaldatenbank, aus unserem Originaldatenrahmen und ziehen Sie nur die URLs und die JSON-LD-Typen zurück.

Wenn ich das ausführe, wird ein neuer Datenrahmen mit genau diesen Informationen erstellt. Um diese Daten zu sehen, kann ich einfach JSON_DF eingeben, eine neue Zelle erstellen und die Eingabetaste drücken. Es gibt mir eine Liste aller meiner Seiten und der Art des Markups, das mit diesen spezifischen Seiten verknüpft ist. Dies kann sehr hilfreich sein, wenn Sie schnell suchen und den gesamten JSON-Code auf Ihrer Website finden möchten, welche Typen Sie haben und welches Markup Sie haben.

Haben Sie außerdem einige Seiten, auf denen Markup fehlt? Sie können diese schnell identifizieren. Wir haben diese neuen Daten, in denen wir alle unsere URLs und alle unsere JSON-LD-Typen haben, von denen wir wissen, dass sie auf dieser Seite vorhanden sind.

Schritt 4: Visualisieren Sie die Ergebnisse

Nehmen wir an, wir möchten einen schnellen Bericht oder eine Grafik erstellen, um sie entweder einem Kunden oder einer anderen Person oder der Menge an Informationen und Daten, die wir dieser Website für sie hinzugefügt haben, und den verschiedenen Arten davon anzuzeigen.

Als Erstes muss ich alle verschiedenen Arten von Markups zählen, die hinzugefügt wurden, und dann kann ich sie visualisieren. Beginnen wir damit, dies zu zählen und einen neuen Datenrahmen zu erstellen. Ich habe diesen Code bereits erstellt und werde Sie durch ihn führen:

json_counts = json_df[‘jsonld_@type’].value_counts()

json_counts = json_counts.reset_index()

json_counts

Es heißt JSON-Zählungen. Dies ist ein neuer Datenrahmen. Wir übernehmen hier die Daten aus der JSON-LD-Spalte. Wir lassen die eindeutigen Werte zählen, die in dieser Spalte enthalten sind. Wenn ich diesen Code ausführe und ihn dann anweise, ihn auszugeben, werden Sie sehen, dass wir alle diese Informationen gezählt haben.

Was es tut, ist, dass es mir diesen Fehler gibt, weil es einige Nullen oder einige NAS in der Liste findet. Das ist in Ordnung, denn Sie werden gleich sehen, dass wir diese Informationen hier haben. Hier sind alle verschiedenen Markup-Typen aufgeführt und alles für uns zusammengestellt.

Sie bemerken jedoch auch, dass es nicht ganz wie ein Datenrahmen aussieht, wie er hier ist. Wir müssen diesen Datenrahmen oder diese Variable neu in einen Datenrahmen indizieren, damit er ordnungsgemäß funktioniert. Wir geben unseren Datenrahmen an und führen diesen Code aus:

json_counts = json_counts.reset_index()

Wenn wir dies ausführen, werden Sie sehen, dass wir einen Datenrahmen haben. Wir haben den Index, also den Begriff. Dann haben wir den JSON-LD-Typ und die Anzahl davon. Wir haben immer noch keine Grafik. Wir haben immer noch nur einen weiteren Datenrahmen. Was müssen wir tun, um diesen Datenrahmen in eine Visualisierung oder ein Diagramm umzuwandeln? Wir werden etwas namens verwenden Plotly.

Plotly ist eine weitere Bibliothek, die Advertools sehr ähnlich ist und die wir zum Erstellen von Visualisierungen verwenden können. Insbesondere werden wir Plotly Express verwenden. Als Erstes müssen wir Plotly installieren. Anschließend führen wir PIPinstallPlotly aus. Ich werde diese Zelle ausführen. Es ist bereits in diesem Arbeitsblatt installiert, aber es ist in Ordnung. Wie Sie sehen, wird es uns mitteilen, dass es bereits installiert und bereits zufrieden ist. Es kann losgehen.

Nehmen Sie den Code, den wir gerade von hier kopiert haben, und fügen Sie ihn wieder in unseren Crawler ein. Wir brauchen dieses mittlere nicht, da es sich um Daten handelt, die wir nicht verwenden. Wir verwenden unsere eigenen Daten. Wir müssen Plotly Express als PX importieren und unsere neue Datenbank hier verbinden, um die richtigen Informationen in unser Diagramm zu bekommen.

!pip plotly installieren

plotly.express als px importieren

fig = px.bar(json_counts, x=’index’, y=’jsonld_@type’)fig.show()

Unser Datenrahmen hieß JSON counts. Auf unserem X verwenden wir den Index und auf dem Y den JSON-Typ. Warum habe ich diese ausgewählt? Der Index ist der Ort, an dem sich die Wörter befinden. Wir möchten diese auf dem X haben, und dann erfolgt die Zählung auf JSON-LD @type, und das wird unser Y sein, das uns sagt, wie viele sich in jeder dieser Spalten befinden. Wir werden fortfahren und das hier veröffentlichen. Ziemlich einfach. Und dann zeigt fig.show dieses Diagramm. Jetzt haben wir hier unten alle unsere verschiedenen Typen, und hier haben wir die unterschiedlichen Mengen jedes Typs in einer schönen Grafik.

Wenn Sie dies teilen möchten, können Sie es als PNG herunterladen, und Plotly lädt es jetzt auf Ihren Computer herunter. Sie können dies nehmen und sagen: „Wir haben auf diesen vielen Seiten so viel Markup angebracht.“ Eine ziemlich coole Möglichkeit, es schnell zu visualisieren.

Schritt 5: Exportieren Sie die Daten

Was aber, wenn wir all diese Daten herunterladen und damit arbeiten möchten, vielleicht in Google Sheets oder etwas anderem? Nun, Sie können das auch tun, um das zu tun. Wir müssen nur noch eine Zeile Code verwenden und schon kann es losgehen. Nehmen wir also an, wir laden hier diese Tabelle mit allen Seiten unserer Website und dem JSON-LD-Typ herunter. Wir können zu dieser Zelle oder zu jeder beliebigen Zelle gehen und dann eine neue Codezeile erstellen.

Wir müssen etwas von Google Colab verwenden, das Importdateien heißt. Das ist das Erste, was wir tun werden. Als Nächstes suchen wir diesen Datenrahmen, der JSON-DF ist. Wir werden dies unten hinzufügen und .2_CSV sagen, und dann werden wir ihm einen Namen geben. Wir können dies JSON_DF.CSV nennen. Sobald Sie diesen Code eingegeben haben, haben Sie Ihre CSV-Datei erstellt. Wenn ich hier in meinen Ordner schaue, sehen Sie die Datei genau hier.

Von hier aus könnte ich es einfach herunterladen, oder ich könnte hier eine Codezeile einfügen, die uns hilft, es noch schneller herunterzuladen. Ich könnte „files.download“ sagen und dann diese Datei aufrufen, die ich gerade erstellt habe, und Colab gebeten, sie direkt für mich herunterzuladen. Wenn ich diese Zelle starte, wird diese Datei heruntergeladen und hier habe ich sie. Ich kann fortfahren, auf „Öffnen“ klicken und jetzt habe ich diese CSV-Datei, mit der ich mit jedem Tabellenkalkulationsprogramm, das ich habe, machen kann, was ich will. Ich kann auch diejenigen sehen, denen möglicherweise etwas Markup fehlt.

Hier hast du es. Wir sind weitergegangen und haben unseren eigenen benutzerdefinierten Crawler erstellt. Wir haben einige benutzerdefinierte Daten abgerufen. Wir haben diese Daten visualisiert und zur Verwendung in anderen Programmen heruntergeladen. Wir haben das alles gemacht, und ich bin kein Computerprogrammierer, ich versuche nicht einmal, so zu tun, als wäre ich einer. Wie ich bereits sagte, ich bin einfach gut im Kopieren und Einfügen. Ihr könnt diese Dinge auch herausfinden.

Wenn Sie Fragen haben, gibt es immer coole Lösungen. Wenn Sie bereit sind, etwas Neues und Anderes auszuprobieren, empfehle ich Ihnen dringend, in Colab herumzuspielen. Es gibt viele tolle Ressourcen da draußen. Es gibt viele Leute, die viel schlauer sind als ich und viel erstaunlichere Dinge tun, von denen ich eine Menge gelernt habe und die mir bei meinem Marketingspiel, meiner Recherche, meinem Crawling und vielem mehr geholfen haben.

Wenn Sie Fragen zu dem haben, was wir heute gemacht haben, kommentieren Sie bitte unten. Ich werde auch Zugriff auf diese spezielle CoLab-Datei gewähren und sogar Schritt für Schritt den Code teilen, den wir dabei verwendet haben. Vielen Dank fürs Zuschauen. Vergessen Sie nicht, sich anzumelden und wünschen Ihnen bis zum nächsten Mal viel Spaß beim Marketing.

Hier ist der vollständige Code, falls Sie interessiert sind: