Skip to content

Scrapping/Crawling revisited Volume 1 – Einleitendes

9. März 2009

Volume 1 ist der Anfang einer Serie von Beiträgen die sich über das Thema Scrapping und Crawling befassen.

Scrapping und Crawling sind in den Weiten des Webs eine sehr verbreitete Technik geworden. Hierbei handelt es sich um Datenbeschaffung von Dritten zur Aufbereitung einer womöglich breiteren Menge an Information die in anderer oder einfacheren Art und Weise dargestellt werden. Wieso sind diese Techniken so beliebt? Nun wer Daten crawled muss Daten nicht mühsam von Hand erfassen. Als Startup-Unternehmen, Student oder Person mit ähnlichem Status hat man weder genug Zeit, Motivation und Geld um diese zu beschaffen. Daten hingegen sind die Grundlage nahezu jedes Informationsprojekts(Natürlich gibt es auch kreativere Ideen, die sich nicht auf der Basis zusammengesuchter Daten stützen).

Doch was passiert mit den Betreibern der Seite von der die Daten ursprünglich stammen?

Es gibt einige Dinge die hier im Zusammenspiel stehen:

  1. Alleinstellungsmerkmale – Wieviel verliert eine Seite wenn Daten gecrawled werden? Sind die Alleinstellungsmerkmale noch vorhanden? z.B. eine Seite die Bilder hosted, würde erheblichen Schaden davon tragen wenn eine andere diese schlichtweg scrappen würde.
  2. Seitenkapital – Dieser Punkt geht in eine ähnliche Richtung wie die Alleinstellungsmerkmale. Nur ist diese Eigenschaft existentieller. Das Kapital einer Seite ist der Grund bzw die daraus resultierende Ursache das Benutzer eine Webseite besuchen. Angenommen ein Benutzer hat früher vier Nachrichtenseiten besucht, heute muss er sich beispielsweise nur eine der weitläufig verbreiteten Übersichtsseiten anschauen.
  3. ROI (Return on Investment) – bezüglich der Datenerfassung.
  4. Benutzerbindung – Wieviel Einfluss haben die oben genannten Gründe auf die Benutzerbindung ?

(Der Autor weiß das Alleinstellungsmerkmale Teil des Seitenkapital sind, aber auf Grund der Wichtigkeit wurden die Alleinstellungsmerkmale separat aufgeführt)

Grundsätzlich kann man in der Entwicklung des Web eine grundlegende Tendenz ausmachen. Wenn man davon ausgeht das die Ursprungsseiten die Wurzel bilden. Davon ausgehend jede hierarchisch tiefere Ebene eine Zusammenfassungsseite ist, so ist zwar die Tendenz höher einen kurzzeitigen Hype zu erleben, doch effektiv ist die Bindung der Besucher grundsätzlich bis auf wenige Ausnahmen geringer.

Die besten Beispiele hierfür sind Suchmaschinen. Vor einigen Jahren waren Suchportale wie Altavista, Lycos und Konsorten die erste Wahl. Heutzutage hat sich dies durch das Aufkommen besserer Lösungen schnell verlagert. Doch wer sagt das sich dies nicht schnell ändert? Wer sagt das es nicht möglich ist ein allwissendes Orakel zu entwickeln das jede Frage bedeutungsgetreu beantworten kann ?

Um einen kurzen Ausblick auf die folgenden Artikel zu geben:

Scrapping/Crawling revisited

  • Volume 2 – Crawler und Scrapper instrumentalisieren
  • Volume 3 – Kostenfaktor „Laien – Traffic“
  • Volume 4 – Methoden zum Schützen des Eigentum
Advertisements
No comments yet

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: