Marktforschung mit Crawler-Technologie


Die Informationsmenge im Internet ist für Normalsterbliche kaum noch zu bewältigen. Das Start-up-Unternehmen 80legs aus dem texanischen Houston hat nun eine recht pfiffige Lösung entwickelt, um Schneisen in den Datendschungel zu schlagen: Die Firma vermietet Suchroboter, die nach persönlichen Vorgaben Teile des Web durchkämmen. Riesige Server-Farmen, wie sie bei Google und Co. stehen, sollen dafür nicht mehr nötig sein; stattdessen wird verteilte PC-Technik eingesetzt.

„Suchroboter, auch Spider oder Crawler genannt, sind Programme, die automatisch Seiten im Web aufsuchen und diese dann in einen Index aufnehmen. Das Problem: Die Größe, die das Web inzwischen angenommen hat, macht es zunehmend schwierig, alle Seiten in ihrer Gesamtheit abzusuchen – das kostet schlicht zu viel Rechenleistung. Genau deshalb muss etwa Google seine Infrastruktur ständig ausbauen“, schreibt die Technology Review-Bloggerin Erica Naone.

Mit dem 80legs-System kann man einen anderen Weg einschlagen. So müssen Firmen nur dafür zahlen, was der Crawler tatsächlich leistet. Bei 80legs erwartet man sich neben Nutzern, die sich für Suchverfahren und Web-Semantik interessieren, auch technische Laien. Marktforscher könnten 80legs beispielsweise einsetzen, um die Erwähnung bestimmter Firmen und Themen im Web zu untersuchen – und zwar viel schneller als bei Google.

Den gewünschten Crawl-Durchgang kann man über ein Web-Interface einleiten. „Dort lassen sich Parameter einstellen oder auch eigener Programmcode hochladen, der dann bestimmt, wie der Suchroboter vorgeht. Beispielsweise könnte jemand 80legs benutzen, um auf die Jagd nach urheberrechtlich geschützten Bildern zu gehen. Dann würde der Crawler alle gefundenen Aufnahmen gegen eine Datenbank mit Copyright-Informationen checken“, so Naone.

Nach Angaben von 80legs-Vorstandschef Shion Deysarkar könne die Technik der Firma bis zu zwei Milliarden Seiten am Tag bearbeiten. Dabei werden für jede Million gecrawlter Seiten 2 Dollar fällig, plus drei Cent pro Stunde für die abgerufene Rechenleistung. „Statt ein Rechenzentrum einzusetzen, wird eine Software verwendet, die auf einem verteilten Netzwerk aus einzelnen PCs läuft, ähnlich wie man es vom SETI@home-Projekt zur Jagd nach außerirdischen Signalen kennt“, schreibt Naone. Ein Dienst wie 80legs könnte auch für universitäre Forscher spannend sein. „Im großen Stil zu crawlen, ist eine teure Hürde, wenn es um experimentelle Suchprojekte im akademischen Bereich geht „, meint Kevin Chang, Dozent für Computerwissenschaften an der University of Illinois. Es fehle an der Infrastruktur. Er ist der Auffassung, dass der verteilte Ansatz von 80legs eine „interessante Richtung“ sei. Die Idee könne die Kosten für Crawling-Durchgänge verringern.

Advertisements

3 Responses to “Marktforschung mit Crawler-Technologie”


  1. 1 Darren 7. November 2012 um 15:29

    I read this post completely about the resemblance
    of newest and earlier technologies, it’s remarkable article.

  2. 2 Randy 19. November 2012 um 13:31

    I all the time used to study piece of writing in news papers
    but now as I am a user of net so from now I am using net for content, thanks to web.

  3. 3 businessdiscuss.com 28. März 2013 um 17:12

    The write-up offers proven beneficial to me.
    It’s extremely useful and you really are
    clearly really experienced in this field. You have got
    opened up my eye to various views on this specific subject matter using
    interesting and sound written content.


Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s




Top-Beiträge

Blog Stats

  • 21,149 hits
September 2009
M D M D F S S
    Okt »
 123456
78910111213
14151617181920
21222324252627
282930  

Am Besten bewertet

Um neue Beiträge per E-Mail zu erhalten, hier die E-Mail-Adresse eingeben.

Schließe dich 8 Followern an

Top-Klicks

  • -

Seiten


%d Bloggern gefällt das: