Proč je někdy vhodné použít pro získání dat crawlování webu

michaljanik · květen 18, 2022, 9:39am

Scraping Camel získává data tak, že samostatně a průběžně prochází stránky webu. Ze stránek získává potřebné informace. Jde o jiný přístup, než je např. generování dat ze strany provozovatele webu do datových (XML či CSV) feedů, posílání přes API a podobně. Oba přístupy mají své výhody. Obecně bych řekl, že preferujeme napojení přes feedy či API (kvůli rychlosti a efektivitě zpracování dat). Ovšem scrapování má své uplatnění. Například v těchto situacích.

XML feedy neexistují

Pokud dodavatel dat má potřebné informace na webu, ale vygenerovat z nich XML feed neumí. Zejména v zahraničí je tato situace častá. Dále může jít o weby bez košíku - velkoobchodní katalogy zboží, nabídky zájezdů, katalogy finančních produktů, kulturních akcí, zkrátka weby s vícestránkovým katalogem.

Feedy nepokrývají některé stránky

V případě e-shopů může jít např. o stránky kategorií, obsahové stránky blogu, statické stránky s kontakty aj. Tyto stránky obvykle XML feedy nepokrývají, na rozdíl od stránek s produkty.

Feedy existují, ale neobsahují potřebná data

V praxi se často stane, že XML feedy obsahují základní informace. Na webu jsou ale další informace navíc. Například o velikostech, podrobně rozvedená skladová dostupnost, parametry aj. Z webu lze pomocí Scraping Camela vytvořit feed, který uživatel buď použije v Mergadu pro vytvoření exportu, nebo může existující data do existujícího exportu připojit pravidlem datového importu.

Ze stránek lze získat data, která jinde uvedena nejsou.

Scraping Camel dokáže analyzovat obsah webové stránky a získat z ní data, která jinde výslovně uvedena nejsou. O této funkcionalitě si povíme někdy podrobněji.