Posts Tagged 'Crawler'

Marktforschung mit Crawler-Technologie

Die Informationsmenge im Internet ist für Normalsterbliche kaum noch zu bewältigen. Das Start-up-Unternehmen 80legs aus dem texanischen Houston hat nun eine recht pfiffige Lösung entwickelt, um Schneisen in den Datendschungel zu schlagen: Die Firma vermietet Suchroboter, die nach persönlichen Vorgaben Teile des Web durchkämmen. Riesige Server-Farmen, wie sie bei Google und Co. stehen, sollen dafür nicht mehr nötig sein; stattdessen wird verteilte PC-Technik eingesetzt.

„Suchroboter, auch Spider oder Crawler genannt, sind Programme, die automatisch Seiten im Web aufsuchen und diese dann in einen Index aufnehmen. Das Problem: Die Größe, die das Web inzwischen angenommen hat, macht es zunehmend schwierig, alle Seiten in ihrer Gesamtheit abzusuchen – das kostet schlicht zu viel Rechenleistung. Genau deshalb muss etwa Google seine Infrastruktur ständig ausbauen“, schreibt die Technology Review-Bloggerin Erica Naone.

Mit dem 80legs-System kann man einen anderen Weg einschlagen. So müssen Firmen nur dafür zahlen, was der Crawler tatsächlich leistet. Bei 80legs erwartet man sich neben Nutzern, die sich für Suchverfahren und Web-Semantik interessieren, auch technische Laien. Marktforscher könnten 80legs beispielsweise einsetzen, um die Erwähnung bestimmter Firmen und Themen im Web zu untersuchen – und zwar viel schneller als bei Google.

Den gewünschten Crawl-Durchgang kann man über ein Web-Interface einleiten. „Dort lassen sich Parameter einstellen oder auch eigener Programmcode hochladen, der dann bestimmt, wie der Suchroboter vorgeht. Beispielsweise könnte jemand 80legs benutzen, um auf die Jagd nach urheberrechtlich geschützten Bildern zu gehen. Dann würde der Crawler alle gefundenen Aufnahmen gegen eine Datenbank mit Copyright-Informationen checken“, so Naone.

Nach Angaben von 80legs-Vorstandschef Shion Deysarkar könne die Technik der Firma bis zu zwei Milliarden Seiten am Tag bearbeiten. Dabei werden für jede Million gecrawlter Seiten 2 Dollar fällig, plus drei Cent pro Stunde für die abgerufene Rechenleistung. „Statt ein Rechenzentrum einzusetzen, wird eine Software verwendet, die auf einem verteilten Netzwerk aus einzelnen PCs läuft, ähnlich wie man es vom SETI@home-Projekt zur Jagd nach außerirdischen Signalen kennt“, schreibt Naone. Ein Dienst wie 80legs könnte auch für universitäre Forscher spannend sein. „Im großen Stil zu crawlen, ist eine teure Hürde, wenn es um experimentelle Suchprojekte im akademischen Bereich geht „, meint Kevin Chang, Dozent für Computerwissenschaften an der University of Illinois. Es fehle an der Infrastruktur. Er ist der Auffassung, dass der verteilte Ansatz von 80legs eine „interessante Richtung“ sei. Die Idee könne die Kosten für Crawling-Durchgänge verringern.

Advertisements

Top-Beiträge

Blog Stats

  • 21,156 hits
Oktober 2017
M D M D F S S
« Apr    
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

Am Besten bewertet

Um neue Beiträge per E-Mail zu erhalten, hier die E-Mail-Adresse eingeben.

Schließe dich 8 Followern an

Top-Klicks

  • -

Seiten