Definition: Was ist Web Scraping?
Unter Web Scraping (zu Deutsch “Bildschirm Schürfen”), auch als „Screen Scraping“ oder in kurz “Scraping” bekannt, versteht man eine Data-Scraping-Technik, um manuell oder automatisiert Daten von Websites zu extrahieren. Dabei werden fremde Inhalte wie Content-Blöcke oder E-Mail-Adressen kopiert, gespeichert und für Preisanalysen, Marketingautomatisierungen oder schädliche Phishing-Angriffe eingesetzt. Das wohl bekannteste Beispiel ist der Einsatz von Crawlern bzw. Scrapern, die von Google eingesetzt werden, um Webseiten zu indexieren und vorhandene Inhalte für die Rankingbewertung zu extrahieren. Somit gibt es legale Methoden, um Web Scraping zu betreiben, aber auch Methoden, welche zu illegalen Zwecken verwendet werden oder sich in einer „Grauzone“ befinden.
Wie funktioniert Web Scraping?
Beim Web Scraping gibt es zwei verschiedene Methoden, um an die Daten zu gelangen. Man unterscheidet zwischen manuellen bzw. semi-automatisierten Verfahren und zwischen voll automatisierten Tools. Das manuelle Scraping wird oft dann verwendet, wenn der Zugang für Scraping Zugriff für den Crawler durch die Robots.txt blockiert wurde.
Dabei werden bestimmte Textelemente auf der Website oder im Quellcode per Hand kopiert und für die Weiterverwendung in einer Word- oder Exceldatei abgespeichert. Das halbautomatische Web Scraping erfolgt mit Hilfe von Scraping-Extensions im Browser. Data Scraping Extensions bieten eine schnelle Möglichkeit, mit wenigen Klicks und innerhalb des Browsers den HTML-Code einer oder mehrerer Websites zu extrahieren.
Dieses Verfahren des Data Scraping ist allerdings auf eine gewisse Anzahl an Daten begrenzt, die gescrapt werden können. Auch kann ein Update oder veraltete Browser-Version schnell dazu führen, dass die Extension nicht mehr richtig funktioniert. Aber der wohl größte Unterschied, wieso Cyberkriminelle zu komplexeren Scraping-Tools greifen, ist die Funktionalität zur Datenmanipulation. Denn nur die Daten zu extrahieren, ist nicht das Ende des Prozesses. In der Regel werden die Rohdaten noch in die richtige Struktur gebracht und bereinigt, um den Datensatz optimal interpretieren zu können.
Das nachfolgende Beispiel zeigt, wie das Website Scraping in vereinfachter Form angewendet wird:
1. Website (URL) aufrufen: Zum Start des Web Scrapings beginnt der Webcrawler damit, eine bestimmte Website aufzurufen. Das kann die Startseite einer Website oder eine andere beliebige Seite sein, von der aus Daten extrahiert werden sollen.
2. HTML-Request: Nach dem Aufrufen der URL sendet der Crawler eine Anfrage an den Webserver der Website.
3. HTML-Analyse: Sobald die HTML-Seite erfolgreich aufgerufen wurde, analysiert der Crawler den Code, um die Struktur der Website zu verstehen. Dies umfasst das Identifizieren von HTML-Tags, Klassen, IDs und anderen Elementen, die relevante Informationen zum Data Scraping enthalten könnten.
4. Data Scraping: Der Webcrawler extrahiert dann die gewünschten Daten aus dem HTML-Code. Bei den meisten Scraping-Tools kann genau festgelegt werden, welcher Teil des HTMLs aus der Website extrahiert werden soll. Das kann Texte, Bilder, Links oder anderen Arten von Inhalten umfassen.
5. Datenverarbeitung und Speicherung: Nach der Extraktion werden die gescrapten Daten weiterverarbeitet, um sie in einem strukturierten Format zu speichern. Je nach Extraktionsziel können die Daten in Form von CSV-Dateien oder JSON-Formaten abgelegt werden, abhängig von den Bedürfnissen des Benutzers. Anschließend werden die Daten so manipuliert und bereinigt, dass sie dem Nutzen entsprechend interpretiert werden können.
6. Navigation zu weiteren Seiten: In vielen Fällen beinhaltet das Web Scraping das Durchlaufen mehrerer Seiten einer Website. Der Webcrawler folgt Links oder navigiert durch die Seitenstruktur, um zusätzliche relevante Daten zu sammeln. Es obliegt also dem Nutzer, ob spezifische Daten von einer URL oder mehrere Seiten gescrapt werden sollen.
Ist Web Scraping legal?
Grundlegend ist das Ausführen von Screen Scraping legal, solange dabei keine Schutzvorrichtungen zum Blockieren von Data Scraping überwunden werden. In einem vom Bundesgerichtshof festgelegten Urteil wurde 2014 beschlossen, dass Screen Scraping immer dann rechtskräftig ist, wenn keine Schutzbarrieren überschritten werden, um mutwillig an Inhalte zu gelangen. Für bereits veröffentlichte Inhalte, die beispielsweise zur Informationssammlung oder Auswertung von Analysen genutzt werden, sind vollkommen legitim.
Werden jedoch Texte, Bilder oder andere Dinge, die als geistiges Eigentum zählen, gescrapt und anschließend auf der eigenen Website verwendet, dann greift das Urhebergesetz. Ebenso ist Web Screening immer dann illegal, wenn Blockaden wie Firewalls durchbrochen werden, um beispielsweise an personenbezogene Daten zu gelangen und eigenwillig gegen den DSGVO-Consent extrahiert werden.
Unser Expertenwissen hilft Ihnen Gefahren für Ihre IT-Infrastruktur besser zu erkennen.
Wie wäre es aber, dieses Wissen deutlich entspannter mit einem Lächeln und dem Gedanken:
„Spannend – aber auch dagegen bin ich abgesichert“ zu lesen?
P.S. Brillieren können Sie im Meeting mit dem neuen Wissen trotzdem!
Einsatzmöglichkeiten von Web Scraping
Web Scraping wird zur Datenextraktion verwendet und ist prinzipiell legal. Obwohl das Web Scraping im Allgemeinen nicht verboten ist, werden die Methoden immer wieder dazu verwendet, um illegale Tätigkeiten zu vereinfachen.
Spear-Phishing: Hacker verwenden Screen Scraping, um gezielt Informationen wie E-Mails oder Telefonnummern aus öffentlichen Profilen, sozialen Medien oder Firmenwebseiten abzugreifen. Die Informationen werden dann oft im Zusammenhang mit Phishing-Angriffen verwendet, um täuschend echte Nachbildungen von E-Mails an die betroffenen Personen zu verwenden.
Web Scraping für Google: Die Indexierung von Websites bildet die Grundlage für die Funktionsweise von Suchmaschinen wie Google. Das Herzstück dieses Prozesses sind Webcrawler, auch als Bots bekannt. Diese automatisierten Programme spielen eine entscheidende Rolle bei der Analyse und Indexierung von URLs, wodurch die effiziente Sortierung und Anzeige von Suchergebnissen ermöglicht wird. Webcrawler sind spezielle Programme, die systematisch das Internet durchsuchen, um Webseiten zu finden, Informationen zu extrahieren und die gefundenen Inhalte in einer durchsuchbaren Datenbank zu organisieren. Google verwendet komplexe Algorithmen, um die Crawler durch Milliarden von Seiten zu lenken und relevante Informationen zu erfassen. Dieser Prozess ermöglicht es Google, aktuelle und umfassende Suchergebnisse bereitzustellen.
Content Grabbing: Beim Content Crabbing werden die Inhalte vollständig kopiert und für die eigene Website genutzt. Das exakte Kopieren von Inhalten verstößt gegen das Urheberrecht und führt somit zu einer Straftat. In der Regel wird hier die Screen-Scraping-Methode oft bei Jobportalen oder Marktplätzen verwendet, wo der Text relativ klein ausfällt oder keine Bedeutung für die Sichtbarkeit in Google hat. Denn das Kopieren von großen Textabschnitten führt zusätzlich zur sofortigen Abstrafung bei Google-Rankings.
Marketing: Oft wird Screen Scrabing dazu verwendet, um im Marketing schnell und skalierend an wertvolle Daten von Plattformen wie LinkedIn, Facebook oder Google zu extrahieren. Diese Daten können dann anschließend dazu verwendet werden, um die Zielgruppen besser zu verstehen, Marketingstrategien zu optimieren und Wettbewerbsanalysen durchzuführen.
Price-Grabbing: Eine weitere Grauzone für die Anwendung von Web Scraping liegt im E-Commerce, insbesondere im Bereich des Price-Grabbing. Unternehmen können Preise von Produkten und Dienstleistungen auf verschiedenen Websites extrahieren, um Wettbewerbsinformationen zu sammeln. Diese Daten helfen dabei, dynamische Preisstrategien zu entwickeln, um beispielsweise die Konkurrenz gezielt zu unterbieten und damit Kunden für sich selbst zu gewinnen.
Analysen: Web Scraping wird auch für datenbasierte Analysen eingesetzt. Unternehmen nutzen Daten aus unterschiedlichen Quellen, um Trends zu identifizieren, Marktforschung durchzuführen oder Geschäftsentscheidungen zu unterstützen.
Wie kann ich Web Scraping verhindern?
Robots.txt-Datei nutzen: Mit der Hilfe einer Robots.txt können Sie den Webcrawlern klare Anweisungen dazu geben, welche Bereiche der Website gecrawlt werden dürfen und welche nicht. Außerdem können Sie festlegen, welche Bots vollständig ausgeschlossen werden sollen und welche nicht.
Einsatz von Bot-Management-Lösungen: Die Implementierung eines Bot-Managements hilft dabei die Verhaltensmuster von Bot Aktivitäten zu identifizieren und so Scraping-Angriffe zu verhindert.
Captcha implementieren: Durch die Implementierung von Captcha-Prüfungen auf bestimmten Seiten können Sie automatisierte Scraping-Bots effektiv hindern
Firewall: Eine weitere Methode, um sich gegen Scraping-Angriffe zu schützen ist der Einsatz einer klassischen Firewall. Zudem werden.potenzielle Scraping Versuche in den Logfiles gespeichert und können von Admins gesehen und bewertet werden.
Web Scraping: Das sollten Sie Wissen
Mit der zunehmenden Flut an Informationen ist und bleibt Web Scraping ein fester Bestandteil für digitale Instrumente. In vielen Anwendungen ist das Scrapen von Daten nicht mehr wegzudenken und wie im Falle von Google können gewisse Algorithmen ohne die Unterstützung von Scraping nicht existieren. Leider unterstützt der Einsatz von Scraping-Methoden auch illegale Phishing-Attacken, das Kopieren von urheberrechtlich geschützten Content-Typen als auch das Extrahieren von personenbezogenen Daten.
Damit Sie die Auslastung Ihrer IT-Landschaft stets im Blick haben, empfehlen wir Ihnen, auf eine IT-Monitoring-Software zurückzugreifen. Ein einfacher Firewall-Schutz reicht oft nicht aus, um die besagten Angriffe zu stoppen. Mit der Hilfe eines IDS/IPS können Sie ganz einfach Angriffe und Anomalien auf jedem Client und Server blockieren.
« Zurück zur Übersicht