Sitemap als Crawlerhilfe
Der Webcrawler einer Suchmaschine wird den Inhalt gefundener Webseiten auswerten und indexieren, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen. Von der Einstiegsseite einer Web-Präsenz (index.html / index.htm) möchte er den Hyperlinks folgen, um Unterseiten zu finden.
|
|
Google, bitte besuche meine Unterseiten
Wenn er das nicht tut, schicken sie ihm bitte keine bösen Emails. Besonders dann nicht, wenn sie ein JavaScript-Menü oder einen Frameset verwenden.
Eine Sitemap kann als Crawler-Hilfe für Suchmaschinen eingesetzt werden. Das ist überall dort zu empfehlen, wo die Start- oder Einstiegsseite eine Framesetdatei ist. crowler [engl.] = Kricher, spider [engl.] = Spinne.
Wie arbeitet ein Crawler?
Definition: Ein Webcrawler (auch Spider oder Robot, kurz Bot) ist ein "Suchautomat". Eigentlich ein Computerprogramm, welches das Web automatisch durchsucht und Webseiten analysiert. Wie beim Surfen gelangt ein Webcrawler über die Link-URL von einer Webseite zur nächsten.

Dabei werden alle gefundenen Adressen gespeichert und der Reihe nach besucht. Die gefundenen Hyperlinks werden dann zur Liste der URLs hinzugefügt. Auf diese Weise können (theoretisch) alle erreichbaren Seiten der Webseite gefunden werden. Crawler sind also Mechanismen, die das Internet selbständig auf (neue) Informationsangebote durchforsten.
Der Begriff 'Crawler' bürgerte sich durch die gleichnamige Suchmaschine WebCrawler ein, welche 1994 die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex war. [Wiki]
weisen Sie auf Ihre Sitemap hin!
Es ist also eine gute Idee, wenn Sie dem Crowler eine Liste aller interessanten Seiten Ihres Projekts anbieten. Dise Liste sollte als Linkliste zu den betreffenden Seiten erstellt werden. Eine Sitemap erfüllt diese Bedingungen. Wenn Sie eine Sitemap haben:
verlinken Sie Ihre Sitemap gleich in der Startseite (index.htm)
fügen Sie ein entsprechendes META-Tag ein
<link rel="contents" href="[Domain][Dateiname]" title="Sitemap">
<link rel="contents" href="http://www.abc.de/sitemap.htm" title="Sitemap">
In den Meta-Tags Ihrer Seiten geben Sie die Anweisung den Links zu folgen.
<meta name="robots" content="INDEX,FOLLOW">
Falls sie also für ihre Seite noch keine Sitemap erstellt haben, sollten Sie aus diesem Grund eine navigationsfähige Sitemap erstellen Das wollten Sie ohnehin schon längst einmal erledigen.
Falls Sie mit Framesets arbeiten
Ein Crawler sieht eine Framesetdatei als eine leere Seite, wenn er nicht in der Lage ist, die dort notierten Frameinhalte zu finden. Schließlich gibt es zwar (hoffentlich) Meta-Angaben zum Seiteninhalt im Head-Bereich, weiter unten aber keine Inhalte, weil ein echter BODY-Bereich fehlt. Fazit für den Crawler: Titelangaben, Beschreibung und Keywords stimmen nicht mit dem Seiteninhalt überein.
Da auf der Indexseite einer solchen "Fenstersammlung" keine Links zu finden sind, werden nur die Daten aus den MetaTags und die des Noframes-Bereiches extrahiert. Das kann dazu führen, dass der Roboter davon ausgeht, dass die Seite lediglich aus einem HTML-Dokument besteht.
Schön wäre es, würde er gleich in der Framesetdatei sämtliche Links auf die Unterseiten finden. Dann tun sie ihm doch den Gefallen! Tragen sie im NoFrame-Bereich sämtliche Links zu ihren Unterseiten ein. Zugegeben, das ist eine Menge Arbeit. Daher hier mein Vorschlag zur Arbeitserleichterung:
Wenn Sie bereits eine Sitemap erstellt haben, sind sie noch einen Arbeitsschritt von einer Robot-freundlichen Frameset-Seite entfernt.
Erleichterung
|
Das Eintragen jedes einzelnen Links kann man sich ersparen, wenn man im Noframe-Bereich der Framesetdatei einen Verweis auf eine vorhandene, navigationsfähige Sitemap einfügt. Schließlich gibt es dort einen Link auf jede Unterseite. Eine Suchmaschine kann den Links folgen und auch ihre Unterseiten finden.
| |
a Im Head der Frameset-Datei:
<head>
<meta name="robots" CONTENT="INDEX,FOLLOW">
...
</head>
Tragen sie im META-Tag für "Robots" nichts ein, ist das auch OK. Es darf aber keinesfalls "NoFollow" notiert werden, wenn sie eine Indizierung durch Suchmaschinen wünschen.
b Innerhalb der Frameset-Definition:
<frameset ... >
<frame ... >
<frame ... >
<noframes>
<body>
<a href="sitemap.htm">Sitemap</a>
</body>
</noframes>
</frameset>
Im Noframe-Bereich (rot) tragen sie einen Link auf ihre Sitemap ein.
Da der Noframe-Bereich nur dann angezeigt wird, wenn der Browser keine Framesets kennt (und das geschieht wirklich nur dann, wenn ihre Seitenbesucher eine Browser-Version von Anno Tobak verwenden), bleibt dieser Eintrag normalerweise verborgen.

Sitemap 01 - einfache Sitemap als CSS-formatierte Liste
Sitemap 02 - Kennzeichnung der Ebenen durch Einrückung
Sitemap 03 - detailierte Sitemap mit DIV-Containern
Sitemap 04 - Quicknavi als Sitemap (Grafiken)
Sitemap 05 - Sitemap als verschachtelte Aufzählungsliste

|