DataCrawler

Hilfe / DataCrawler / Nutzung des DataCrawlers (Data Scraping)

Anleitungen & Tutorials

Inhaltsverzeichnis

Allgemeine Einleitung
Genereller Ablauf innerhalb der App
Data Scraping erklärt
Einrichtung und Nutzung
Anlage einer Webseite
Vornehmen von Grundeinstellungen
Einrichtung der Datenverarbeitung
Sonstige Einstellungen
Automatismen
Crawlen mit Sessions
Crawlerübersicht
Datenübersicht
Performancehinweise und Limits
Arbeiten mit den Tools
Konfiguration des User Agents
Hinweise zur Datenqualität
Geschützte Daten, Hintergrundabfragen
Rechtliche Anmerkungen
Masterclass Video

Nutzung des DataCrawlers (Data Scraping)

Allgemeine Einleitung

In dieser Anleitung erklären wir Ihnen den Ablauf innerhalb der App Data Crawler. Sie sollten technisches Wissen im Bereich HTML und Verständnis im Bereich Webverbindungen mitbringen. Die Software läuft hier direkt in Ihrem tricoma System. Somit findet ein direktes Data Scraping in Ihrem tricoma statt, ohne das Dritte Dienste benötigt werden.

Genereller Ablauf innerhalb der App

1. Anlage der Webseite und Konfiguration
2. Crawlen der Webseite
3. Data Scraping: Verarbeitung der gefundenen Daten anhand angelegter Regeln
4. Anlage als Produkt innerhalb der App DataCrawler mit Übernahme in die App Produkte

Data Scraping erklärt

Beim Data Scraping werden einzelne Seiten ausgewertet und Inhalte daraus ausgelesen. Diese werden dann in strukturierter Form gebracht.

Beispiel:

1. Produktbild(er)
2. Produkttitel / Hersteller
3. Preis, wobei dieser auch durch eine hinterlegte CSV Datei ergänzt werden kann
4. Beschreibung
5. Attribute wie Größe, Farbe, Höhe, Material, EAN, Artikelnummer...

Einrichtung und Nutzung

Anlage einer Webseite

Um mit dem Crawlen zu starten ist es nötig eine neue Webseite innerhalb der App anzulegen. Hierbei muss die URL definiert werden.

Vornehmen von Grundeinstellungen

Im nächsten Schritt sollten Grundeinstellungen wie die Lieferantenzuordnung vorgenommen werden.

Einrichtung der Datenverarbeitung

Die Einrichtung der Datenverarbeitung ist der komplexeste Part beim auswerten von Inhalten. Derzeit sind folgende Verarbeitungsklassen vorhanden:

Loginklasse: Die Loginklasse bietet die Möglichkeit sich vor dem Aufruf einer URL der Webseite einzuloggen. Der Login wird danach in einer Session geschreiben, so das nicht bei jedem Webseitenaufruf ein erneuter Login nötig ist. Aktivieren Sie dies nur wenn es benötigt wird.
Kategorieklasse: Die Kategorieklasse bietet derzeit wenig Funktionsumfang und dient derzeit nur dazu eine gecrawler URL als eine Kategorieadresse zu identifizieren. Diese lassen sich später filtern, um z. B. explizit nochmals Kategorieadressen erneut abzurufen
Produktklasse: Diese Klasse ist die wichtigste Klasse, da diese die Produktdaten aus der Webseite ausliest und verarbeitet. Diese ist auch dafür zuständig neue Produkte anzulegen. Details finden Sie in folgender Anleitung: Nutzung des DataCrawlers (Data Scraping)
Suchklasse: Die Suchklasse dient dazu Suchanfrage auf der Webseite auszuführen. Hier können Sie eine URL mit einem Datenfeld definieren, welches mit Ihren Suchanfragen über ein entsprechendes Tool befüllt werden kann.

Sonstige Einstellungen

Performance Einstellungen: Definieren Sie mit wie viel Aufrufen die Webseite ausglesen werden darf.
URL Bedingungen bearbeiten: Hier sollten Sie Bedingungen definieren, so das nur URLs aufgenommen werden, welche diesen Bedingungen entsprechen oder eben nicht entsprechend.
.htaccess/htpasswd Login: Sie können hier Zugangsdaten definieren, falls die Webseite mit einem htpasswd Passwortschutz gechützt ist
Produktfelder zuweisen: Hier können Sie gecrawlte Inhalte (Data Scraping) Ihren Produktdatenfeldern zuweisen (Arbeiten mit Produktdaten aus dem Data Scraping)
Produkteinstellungen: Definieren Sie hier diverse Produkteinstellungen welche unter anderem bei der Produktanlage gelten sollen
Produktliste: Hier können Sie zusätzlich eine CSV Datei (z. B. Händlerpreisliste) hinterlegen. Dann werden die gefundenen Preise durch die aus der Liste ersetzt. Auch können weitere Informationen wie die EAN Nummer ergänzt werden, sofern diese nicht im Shop vorhanden sind.
Produktkategoriezuordnung: Weisen Sie hier die gefundenen Produktkategorien Ihren Produktkategorien zu. Diese Zuordnung wird bei der Produktanlage verwendet.

Automatismen

Es empfiehlt sich die Automatismen erst zu aktivieren, wenn vorab das crawlen über die Tools manuell sauber funktioniert hat.

Folgendes sollte vorab verifiziert werden:

1. Werden vorhandene URLs mit den Code 200 erkannt (Prüfbar in der Crawlerübersicht)
2. Wurden URLs ausgeschlossen, welche man gar nicht crawlen möchte. z. B. doppelte Produkturls, Blogseiten oder auch endlose Kategoriefilter

3. Sind die Daten welche gecrawlt werden inkl. Attribute sauber und in der richtigen Form

Crawlen mit Sessions

Beim Crawlen wird mit sogenannten Sessions gearbeitet. Somit kann sich tricoma auf der jeweiligen Webseite einloggen und erneute Abfrufe mit der identischen Session vornehmen. Allgemein ist es auch so, das durch die Sessions ein Limit an gleichzeitiger Abrufe an den Zielserver erfolgen kann. Dies hilft eine Überlastung des Zielservers zu vermeiden.

Crawlerübersicht

In der Crawlerübersicht können Sie einsehen welche URLs bereits aufgerufen wurden. Auch können Sie URLs neu abfrufen lassen, wenn Sie z. B. Ihr Regelwerk für die Verarbeitung von Daten (Data Scraping) geändert haben.

Datenübersicht

In der Datenübersicht könne Sie Ihre gecrawlten Daten einsehen und z. B. in die Produktverwaltung übernehmen. Details hierzu finden Sie hier Arbeiten mit Produktdaten aus dem Data Scraping.

Performancehinweise und Limits

Im Reiter Monitoring können Sie die Auslastung Ihres Crawler einsehen. Aus technischen Gründen hat der Crawler folgende Limitierungen:

tricoma Premium

Maximale Anzahl an URLs: 250.000
Anzahl an Produkten: 100.000
Anzahl an Bilder: 200.000
Maximalgröße vom Cache: 2.000MB (Zwischenspeicher der Inhalte ohne Bilder)
Anzahl URL Aufrufe pro 24 Stunden: 21.600

tricoma Enterprise

Maximale Anzahl an URLs: 1.000.000
Anzahl an Produkten: 500.000
Anzahl an Bilder: 1.500.000
Maximalgröße vom Cache: 10.000MB (Zwischenspeicher der Inhalte ohne Bilder)
Anzahl URL Aufrufe pro 24 Stunden: 86.400

Sind die Limitierungen erreicht, so müssen die Daten oder Aufrufe reduziert werden. Vorher pausieren alle automatischen Prozesse innerhalb der App.

Tipp: Nutzen Sie die URL Bedingungen um unnötige URLs nicht zu crawlen und somit Speicher im Cache und URLs zu sparen.

Arbeiten mit den Tools

Die Tools vom DataCrawler sind sehr mächtig. So haben Sie die Möglichkeit manuell das Crawlen zu starten, die sitemap.xml einer Seite einzureichen oder Suchanfragen auf der Webseite auszuführen.

Konfiguration des User Agents

In den Allgemeine Einstellungen haben Sie die Möglichkeit einen User Agent zu definieren. Das ist sogesehen der "Softwaretyp" mit welchem die Webseite abefragt wird Häufig reagieren Webseiten unterschiedlich je nach User Agent. Beispiele:

Google Chrome, Firefox, Bot: Gibt man sich als Browser aus, so werden häufig Inhalte nachgeladen um ein besseres Besucherergebnis zu haben. Sie sollten sich daher nicht als ein solcher ausgeben
Bot: Standardmäßig gibt sich tricoma als "tricoma Bot" aus. Aufrufe als Bot sind in den meisten Fällen empfohlen, da Webseite hier im regelfall kein JavaScript laden.

Hinweise zur Datenqualität

Die Datenqualität richtige sich inbesondere nach dem Aufbau der zu crawlenden Webseite.

Der Crawler versucht möglichst HTML typische Attribute wie H1, Schema.org, Meta Tags oder itemprop zu beachten.

Die Datenqualität kann immer durch eigene Klassen gesteigert werden.

Geschützte Daten, Hintergrundabfragen

Der Crawler führt kein JavaScript aus. Sollte die Webseite somit mit Hintergrundabfragen Daten generieren, so können diese vom DataCrawler nicht abgefragt werden.

Hierzu müsste eine eigene Produktklasse entwickelt werden, welche dies dann simuliert.

Beachten Sie hierbei immer den Punkt "Rechtliche Anmerkungen" und Gesetze dazu.

Rechtliche Anmerkungen

Beachten Sie bitte folgende rechtliche Anmerkungen

Generell unterliegen Texte und Bilder von Webseiten dem Urheberrecht
Sie sollten vor dem Crawlen den Webseitenbetreiber (Lieferant oder Hersteller) um Erlaubnis fragen
Es gibt ein Urteil zum Thema “Web Scraping”, welches dies erst einmal erlaubt, sofern die Daten nicht geschützt werden - Referenz: BGH, 30.04.2014 - I ZR 224/12
Es gibt ein Datenbankherstellerrecht (Deutschland), welches es Data Scraping Software, Vergleichsportale, Suchmaschinen etc. dazu berechtigt gecrawlte Daten zu nutzen und Vergleiche anzustellen

Masterclass Video

YouTube Video

Dieses Video wird von einem fremden Server geladen.

► Jetzt Video ansehen

Link für externe Aufrufe: https://tricoma.de/modul.php?modul=tricoma&modulkat=tutlink&ID=2827

Entwickler / Partner

tricoma AG

Zum Partner

Nutzung des DataCrawlers (Data Scraping)

Allgemeine Einleitung

Genereller Ablauf innerhalb der App

Data Scraping erklärt