Technologische Neuigkeiten, Bewertungen und Tipps!

So lesen Sie Robots.txt

Hinweis: Der folgende Artikel hilft Ihnen weiter: So lesen Sie Robots.txt

So lesen Sie Robots.txt: Syntax und Beispiele

In diesem Leitfaden werden Folgendes definiert und Beispiele bereitgestellt:

Die robots.txt-Datei einer Website gibt Websitebesitzern die Kontrolle darüber, wie Suchmaschinen auf ihre Website zugreifen. Die Datei gibt Crawlern Richtlinien dafür, wie Website-Inhalte besucht werden können, und kann zusätzliche Informationen über die Website bereitstellen.

Wenn die robots.txt-Datei korrekt verwendet wird, kann sie sich positiv auf die organische Suchleistung einer Website auswirken, indem sie Crawler zu wichtigen Bereichen der Website führt und gleichzeitig den Zugriff auf Inhalte ohne SEO-Wert beschränkt.

Wie senden Sie diese Signale an Crawler? Verwendung der Hauptfelder, zu denen „User-Agent“, „Zulassen“, „Nicht zulassen“ und „Sitemap“ gehören. Wir überprüfen auch Crawl-Verzögerungen und Platzhalter, die zusätzliche Kontrolle darüber bieten können, wie Ihre Website gecrawlt wird.

Bevor wir tiefer eintauchen, beschreiben wir kurz die vier Hauptaspekte der Datei, die in beschrieben wird Dokumentation von Google. Wir werden weiter unten im Beitrag anhand von Beispielen detaillierter darauf eingehen.

  1. Nicht zulassen: URL-Pfad, der nicht gecrawlt werden kann
  2. Zulassen: URL-Pfad, der gecrawlt werden kann
  3. Benutzeragent: Gibt den Crawler an, für den die Regel gilt
  4. Sitemap: Bietet den vollständigen Standort der Sitemap

User-Agent

Was ist es:

Der „User-Agent“ ist der Name, der Crawler mit bestimmten Zwecken und/oder Herkunft identifiziert. Benutzeragenten sollten definiert werden, wenn Sie bestimmten Crawlern unterschiedlichen Zugriff auf Ihre Website gewähren.

Beispiel:

  • Benutzeragent: Googlebot-Image

Was es bedeutet:

Dies ist ein User-Agent von Google für die Bildsuchmaschine.

Die folgenden Anweisungen gelten nur für den Benutzeragenten „Googlebot-Image“.

Platzhalter

In der robots.txt-Datei werden zwei Platzhalterzeichen verwendet. Sie sind * und $.

* (Match-Reihenfolge)

Was ist es:

Das Platzhalterzeichen * passt zu jeder Folge derselben Zeichen.

Beispiel:

Was es bedeutet:

Dies richtet sich an alle Benutzeragenten für die Anweisungen, die dieser Anweisungszeile folgen.

$ (URL-Ende abgleichen)

Was ist es:

Der Platzhalter „$“ stimmt mit jedem URL-Pfad überein, der mit dem angegebenen Ende endet.

Beispiel:

Was es bedeutet:

Der Crawler würde nicht auf /no-crawl.php zugreifen, könnte aber auf /no-crawl.php?crawl zugreifen

Zulassen und nicht zulassen

Erlauben

Was ist es:

„Zulassen:“ weist die Crawler an, die Website, den Abschnitt oder die Seite zu crawlen. Wenn kein Pfad angegeben ist, wird „Zulassen“ ignoriert.

Beispiel:

Was es bedeutet:

Auf URLs mit dem Pfad example.com/crawl-this/ kann zugegriffen werden, sofern keine weiteren Angaben gemacht werden.

Nicht zulassen

Was ist es:

„Disallow:“ weist die Crawler an, die angegebene Site, Abschnitt(e) oder Seite(n) nicht zu crawlen.

Beispiel:

Was es bedeutet:

Auf URLs, die den Pfad example.com/?s= enthalten, sollte nicht zugegriffen werden, sofern keine weiteren Spezifikationen hinzugefügt werden.

💡 Note: Bei widersprüchlichen Anweisungen folgt der Crawler der spezifischeren Anfrage.

Crawl-Verzögerung

Was ist es:

Die Crawl-Verzögerungsanweisung gibt die Anzahl der Sekunden an, die die Suchmaschinen verzögern sollten, bevor sie die Website crawlen oder erneut crawlen. Google reagiert im Gegensatz zu anderen Suchmaschinen nicht auf Anfragen zur Crawling-Verzögerung.

Beispiel:

Was es bedeutet:

Der Crawler sollte 10 Sekunden warten, bevor er erneut auf die Website zugreift.

Seitenverzeichnis

Was ist es:

Das Sitemap-Feld liefert Crawlern den Standort der Sitemap einer Website. Die Adresse wird als absolute URL angegeben. Wenn mehr als eine Sitemap vorhanden ist, können mehrere Sitemap:-Felder verwendet werden.

Beispiel:

  • Sitemap: https://www.example.com/sitemap.xml

Was es bedeutet:

Die Sitemap für https://www.example.com ist unter dem Pfad /sitemap.xml verfügbar

Hinterlassen Sie Kommentare oder Anmerkungen in Ihrer robot.txt-Datei, indem Sie das Nummernzeichen verwenden, um die Absicht hinter bestimmten Anfragen zu kommunizieren. Dadurch wird Ihre Datei für Sie und Ihre Kollegen leichter lesbar, verständlich und aktualisierbar.

Beispiel:

  • # Dies ist ein Kommentar, der erklärt, dass die Datei den Zugriff auf alle Benutzeragenten ermöglicht
  • User-Agent: *
  • Erlauben: /

Robots.txt-Beispiel „Alle zulassen“.

Eine einfache robots.txt-Datei, die allen Benutzeragenten vollen Zugriff ermöglicht, enthält

  1. Die User-Agents-Direktive mit dem Platzhalterzeichen „Match Any“.
  2. Entweder ein leeres Disallow oder ein Allow mit dem Schrägstrich.

💡 Note: Das Hinzufügen der Sitemap zur Robots-Datei wird empfohlen, ist jedoch nicht obligatorisch.

Abschließende Gedanken zum Lesen von Robots-Dateien

Die robots.txt-Datei, die sich im Stammverzeichnis einer Domain befindet, bietet Websitebesitzern die Möglichkeit, Crawlern Anweisungen zu geben, wie ihre Website gecrawlt werden soll.

  • Bei richtiger Verwendung kann die Datei dazu beitragen, dass Ihre Website effektiver gecrawlt wird und Suchmaschinen zusätzliche Informationen über Ihre Website bereitstellen.
  • Bei falscher Verwendung kann die robots.txt-Datei der Grund dafür sein, dass Ihre Inhalte nicht in den Suchergebnissen angezeigt werden.

Robots.txt testen

Testen Sie Ihre Robots-Datei immer vor und nach der Implementierung! Du kannst Validieren Sie Ihre robots.txt-Datei in der Google Search Console.

Wenn Sie der Meinung sind, dass Sie Hilfe beim Erstellen oder Konfigurieren Ihrer robots.txt-Datei benötigen, damit Ihre Website effektiver gecrawlt wird, hilft Ihnen Seer gerne weiter.

Pop-Quiz!

Können Sie eine Robots-Datei schreiben, die Folgendes enthält?

a) Links zur Sitemap

b) Erlaubt nicht website.com/no-crawl gecrawlt werden

c) Erlaubt website.com/no-crawl-robots-guide gecrawlt werden

d) Eine Zeitverzögerung

e) Kommentare, die erklären, was jede Zeile bewirkt

💡 Teilen Sie Ihre Antworten mit uns auf Twitter (@Wix)!

Zusätzliche Ressourcen

Melden Sie sich für unseren Newsletter an, um weitere Beiträge wie diesen in Ihrem Posteingang zu erhalten: