History einer Web-Seite
Info für den geplagten Webmaster. Wie beuge ich späterem Ärger vor - oder - Wer weiß schon was morgen kommt.
Die 'Archive Wayback Machine' speichert Schnappschüsse von Webseiten! Damit meine ich nicht einen Screenshot sondern Momentaufnahmen der Seiten und ihrer Inhalte.
Manchmal interessant oder auch amüsant, die Entwicklung einer Web-Seite zu verfolgen. Selbst beim Betrachten meiner alten Seiten zaubert das ein wenig Verwunderung in meinen Ausdruck. Von der Festplatte voller Scham gelöscht, vom Server verbannt, taucht die alte Seite dann immer noch im Netz auf.
| |

Auflistung für www.aldi.de 339 Speicherungen bis 13.05.2007
|
Die Kehrseite der Medallie
Es gibt durchaus Situationen, wo die Archivirung durch das Web-Archiv unangenehme Nebenerscheinungen haben kann! Ich sehe zwei große Gefahren:
1) Nachdem man eine Webside aus dem Netz genommen hat und hinterher
feststellt, das andere Webseiten Inhalte (aus dem Web-Archiv entnommen)
verwenden, hat man sicher große Probleme die rechtswiedrige Nutzung
abzumahnen. Denn wo bitte steht denn ihr Original? Wo wurden die Inhalte
gestohlen?
2) Musste man Inhalte aus welchem Grund auch immer (Abmahnung, pers. Gründe) aus der eigenen Webseite entfernen, sind die ja nicht wirklich unerreichbar solange sie im Webarchiv stehen. Das kann nicht nur peinlich sein sondern unter Umständen sogar juristischen Ärger mit sich bringen.
Was tun sie also, falls die Erlaubnis zur Veröffentlichung eines Fotos zurückgezogen wird, das Foto im Archiv aber immer noch betrachtet werden kann?
Legal oder nicht legal?
Der Auflistung der eigenen Seite im Archiv kann man wiedersprechen. In Deutschland müsste man wahrscheinlich den umgekehrten Weg gehen und die Auflistung erlauben.
Nun gelten aber für das Archiv, das in Californien und in Alexandria gehostet wird, andere Regeln. Für die Seiten in Californien wird sogar eine Legalisierung angestrebt, indem man das Projekt als eine 'einem Museums-Archiv gleichgestellte Bibliothek' darstellt.
Nun mögen sie im Augenblick nichts gegen eine Archivirung einzuwenden haben. Was aber geschieht, wenn sie ihre Domain aufgeben oder verkaufen? Nach der Aufgabe ihrer Domain werden die Inhalte ja immer noch im Web-Archiv aufgezeigt. Sie aber haben erhebliche Mühen diese Inhalte im Archiv zukünftig nicht mehr anzeigen zu lassen. Schließlich sind sie (nicht mehr) Webmaster der Seiten zu dieser Domain!
Da hilft nur rechtzeitig vor dem Domainverkauf oder der Weitergabe der Domain die Inhalte des Web-Archivs entfernen zu lassen.
Robot des Web-Archivs ausschließen
Grundsätzlich: Mit Angaben in einer Textdatei, kann man
- namentlich benannte Robots / Web-Crawler oder
- generell alle Robots / Web-Crawler für
- die gesamte Webseite oder
- einzelne Unterverzeichnisse
aussperren.
Robots suchen im Stammverzeichnis nach einer Textdatei mit dem Dateinamen 'robots.txt' und befolgen die dort notierten Anweisungen.
Man kann also in der robots.txt Anweisungen für den Crawler von Web-Archiv notieren, so den Crawler aussperren und bis dato archivierte Inhalte entfernen lassen. Dazu müssten sie in das Stammverzeichnis ihrer Seiten eine Textdatei mit Angaben für genau diesen Cawler von Web-Archiv (lediglich zwei Zeilen) hochladen (siehe nächsten Abschnitt).
Allgemeine Informationen zur 'robots.txt' finden sie auf der Webseite von DrWeb:
http://www.drweb.de/suchmaschinen/robots.shtml
Die Texdatei zum Ausschluss des Crawlers
Der Robot / Crawler des Web-Archivs (mit dem Namen "ia_archiver") wird durch diesen Hinweis für alle Verzeichnisse ausgeschlossen:
User-agent: ia_archiver
Disallow: /
Diese zweizeilige Anweisung als Textdatei (ohne Formatierungen)
- mit dem Dateinamen 'robots.txt' speichern
- dann mit ihrem FTP-Programm in das Stammverzeichnis hochladen
Das ist alles.
Was geschieht nun?
Besucht ein Crawler ihre Webseite, sucht er im Stammverzeichnis nach einer Datei 'robots.text'. Falls eine vorhanden ist wird die Textdatei gelesen. Trifft die dort notierte Anweisung auf ihn zu weil dieser Crawler z.B. "ia_archiver" heißt, wird der Crowler "ia_archiver" die Seite nicht indizieren und (laut Aussage von 'Web-Archiv') bereits gelistete Archivseiten löschen.
Der Crawler der Suchmaschine 'Google' zum Beispiel wird wie bisher die gefundenen Seiten indizieren, da die Angabe 'disallow' (nicht erlaubt) für ihn nicht gilt. Schließlich heißt er ja nicht "ia_archiver" sondern ist mit dem Namen "Googlebot" unterwegs. Yahoo's Cowler hört übrigens auf den Namen "Slurp".
Auf die Plätze, fertig, sofort
Will man die Löschung im Web-Archiv beschleunigen und nicht bis zum zufälligen nächsten Besuch warten, sollte man den Besuch durch den Crawler des Web-Archivs nun forcieren, ihn auffordern die eigenen Webseite-Inhalte (und damit auch die 'robots.txt') zu lesen. Dazu hat das Web-Archiv ein Formular auf der Webseite eingerichtet (ganz unten auf der Seite):
http://pages.alexa.com/help/webmasters/index.html#crawl_site
Abhängig von der Verarbeitung der Informationen, wird ihre Seite früher oder später aus dem Archiv gelöscht werden. Für meine Seiten war das innerhalb weniger Stunden geschehen.
Domain schon verkauft - Wat nu?
Möchte man das Archiv für seine alten Seiten löschen lassen, obwohl man nicht mehr der Domain-Inhaber ist, hat man in der Regel ja nicht mehr die Möglichkeit eine 'robots.txt' hochzuladen. Dann wirds schwierig, schließlich könnte ja jeder Hinz und Kunz behaupten der ehemalige Besitzer der dort archivierten Seiten zu sein. In den FAQs des Archivs wurde allerdings auch für diesen speziellen Fall eine Lösung beschrieben (meine ich mich zu erinnern).
Rückblick Web-Toolbox
Hier 4 Beispiele der Archivierung (meine Screenshots) der Portalseite der Web-Toolbox.
|
|
| Januar 2002 | Juni 2002 |
|
|
| Juli 2002 | September 2002 |
Die Internet Archive Wayback Machine speichert die History des World Wide Web. Das Archiv ist über 100 Terabytes groß und beinhaltet mehr als 85 Milliarden Webpages von 1996 an bis heute.
Wayback Machine
Tragen Sie einfach eine WEB-Adresse ein und klicken den Button 'take me back to the past'. Oft werden auch verschiedene Versionen einer Seite dort abgelegt. Das Datum ist angezeigt.
Die History für meine Seiten reichten bis zum Jahr 2001 zurück und umfasste ca 80 unterschiedliche Versionen. Nun, nach der Sperre sind sie dort nicht mehr verfügbar.
|