History ansehen
    


WWW.WEB-TOOLBOX.NET

ZURÜCK SITEMAP  

 History einer Web-Seite

Info für den geplagten Webmaster. Wie beuge ich späterem Ärger vor - oder - Wer weiß schon was morgen kommt.

Die 'Archive Wayback Machine' speichert Schnappschüsse von Webseiten! Damit meine ich nicht einen Screenshot sondern Momentaufnahmen der Seiten und ihrer Inhalte.

Manchmal interessant oder auch amüsant, die Entwicklung einer Web-Seite zu verfolgen. Selbst beim Betrachten meiner alten Seiten zaubert das ein wenig Verwunderung in meinen Ausdruck. Von der Festplatte voller Scham gelöscht, vom Server verbannt, taucht die alte Seite dann immer noch im Netz auf.

    

Auflistung für www.aldi.de
339 Speicherungen bis 13.05.2007
Die Kehrseite der Medallie

Es gibt durchaus Situationen, wo die Archivirung durch das Web-Archiv unangenehme Nebenerscheinungen haben kann! Ich sehe zwei große Gefahren:

1) Nachdem man eine Webside aus dem Netz genommen hat und hinterher feststellt, das andere Webseiten Inhalte (aus dem Web-Archiv entnommen) verwenden, hat man sicher große Probleme die rechtswiedrige Nutzung abzumahnen. Denn wo bitte steht denn ihr Original? Wo wurden die Inhalte gestohlen?

2) Musste man Inhalte aus welchem Grund auch immer (Abmahnung, pers. Gründe) aus der eigenen Webseite entfernen, sind die ja nicht wirklich unerreichbar solange sie im Webarchiv stehen. Das kann nicht nur peinlich sein sondern unter Umständen sogar juristischen Ärger mit sich bringen.

Was tun sie also, falls die Erlaubnis zur Veröffentlichung eines Fotos zurückgezogen wird, das Foto im Archiv aber immer noch betrachtet werden kann?


   Legal oder nicht legal?

Der Auflistung der eigenen Seite im Archiv kann man wiedersprechen. In Deutschland müsste man wahrscheinlich den umgekehrten Weg gehen und die Auflistung erlauben.

Nun gelten aber für das Archiv, das in Californien und in Alexandria gehostet wird, andere Regeln. Für die Seiten in Californien wird sogar eine Legalisierung angestrebt, indem man das Projekt als eine 'einem Museums-Archiv gleichgestellte Bibliothek' darstellt.

Nun mögen sie im Augenblick nichts gegen eine Archivirung einzuwenden haben. Was aber geschieht, wenn sie ihre Domain aufgeben oder verkaufen? Nach der Aufgabe ihrer Domain werden die Inhalte ja immer noch im Web-Archiv aufgezeigt. Sie aber haben erhebliche Mühen diese Inhalte im Archiv zukünftig nicht mehr anzeigen zu lassen. Schließlich sind sie (nicht mehr) Webmaster der Seiten zu dieser Domain!

Da hilft nur rechtzeitig vor dem Domainverkauf oder der Weitergabe der Domain die Inhalte des Web-Archivs entfernen zu lassen.


   Robot des Web-Archivs ausschließen

Grundsätzlich: Mit Angaben in einer Textdatei, kann man
  1. namentlich benannte Robots / Web-Crawler oder
  2. generell alle Robots / Web-Crawler für
  1. die gesamte Webseite oder
  2. einzelne Unterverzeichnisse
aussperren.

Robots suchen im Stammverzeichnis nach einer Textdatei mit dem Dateinamen 'robots.txt' und befolgen die dort notierten Anweisungen.

Man kann also in der robots.txt Anweisungen für den Crawler von Web-Archiv notieren, so den Crawler aussperren und bis dato archivierte Inhalte entfernen lassen. Dazu müssten sie in das Stammverzeichnis ihrer Seiten eine Textdatei mit Angaben für genau diesen Cawler von Web-Archiv (lediglich zwei Zeilen) hochladen (siehe nächsten Abschnitt).

Allgemeine Informationen zur 'robots.txt' finden sie auf der Webseite von DrWeb:

http://www.drweb.de/suchmaschinen/robots.shtml




   Die Texdatei zum Ausschluss des Crawlers

Der Robot / Crawler des Web-Archivs (mit dem Namen "ia_archiver") wird durch diesen Hinweis für alle Verzeichnisse ausgeschlossen:
User-agent: ia_archiver
Disallow: /

Diese zweizeilige Anweisung als Textdatei (ohne Formatierungen)
  1. mit dem Dateinamen 'robots.txt' speichern
  2. dann mit ihrem FTP-Programm in das Stammverzeichnis hochladen
Das ist alles.


   Was geschieht nun?

Besucht ein Crawler ihre Webseite, sucht er im Stammverzeichnis nach einer Datei 'robots.text'. Falls eine vorhanden ist wird die Textdatei gelesen. Trifft die dort notierte Anweisung auf ihn zu weil dieser Crawler z.B. "ia_archiver" heißt, wird der Crowler "ia_archiver" die Seite nicht indizieren und (laut Aussage von 'Web-Archiv') bereits gelistete Archivseiten löschen.

Der Crawler der Suchmaschine 'Google' zum Beispiel wird wie bisher die gefundenen Seiten indizieren, da die Angabe 'disallow' (nicht erlaubt) für ihn nicht gilt. Schließlich heißt er ja nicht "ia_archiver" sondern ist mit dem Namen "Googlebot" unterwegs. Yahoo's Cowler hört übrigens auf den Namen "Slurp".


   Auf die Plätze, fertig, sofort

Will man die Löschung im Web-Archiv beschleunigen und nicht bis zum zufälligen nächsten Besuch warten, sollte man den Besuch durch den Crawler des Web-Archivs nun forcieren, ihn auffordern die eigenen Webseite-Inhalte (und damit auch die 'robots.txt') zu lesen. Dazu hat das Web-Archiv ein Formular auf der Webseite eingerichtet (ganz unten auf der Seite):

http://pages.alexa.com/help/webmasters/index.html#crawl_site

Abhängig von der Verarbeitung der Informationen, wird ihre Seite früher oder später aus dem Archiv gelöscht werden. Für meine Seiten war das innerhalb weniger Stunden geschehen.


   Domain schon verkauft - Wat nu?

Möchte man das Archiv für seine alten Seiten löschen lassen, obwohl man nicht mehr der Domain-Inhaber ist, hat man in der Regel ja nicht mehr die Möglichkeit eine 'robots.txt' hochzuladen. Dann wirds schwierig, schließlich könnte ja jeder Hinz und Kunz behaupten der ehemalige Besitzer der dort archivierten Seiten zu sein. In den FAQs des Archivs wurde allerdings auch für diesen speziellen Fall eine Lösung beschrieben (meine ich mich zu erinnern).


   Rückblick Web-Toolbox

Hier 4 Beispiele der Archivierung (meine Screenshots) der Portalseite der Web-Toolbox.

Januar 2002Juni 2002
Juli 2002September 2002


Die Internet Archive Wayback Machine speichert die History des World Wide Web. Das Archiv ist über 100 Terabytes groß und beinhaltet mehr als 85 Milliarden Webpages von 1996 an bis heute.




   Wayback Machine

Tragen Sie einfach eine WEB-Adresse ein und klicken den Button 'take me back to the past'. Oft werden auch verschiedene Versionen einer Seite dort abgelegt. Das Datum ist angezeigt.

http://web.archive.org/ Startseite
Sperre / Info für meine Seiten ansehen Web-Toolbox.net


Die History für meine Seiten reichten bis zum Jahr 2001 zurück und umfasste ca 80 unterschiedliche Versionen. Nun, nach der Sperre sind sie dort nicht mehr verfügbar.








NACH OBEN