🐫 Proč je někdy vhodné použít pro získání dat crawlování webu

Scraping Camel získává data tak, že samostatně a průběžně prochází stránky webu. Ze stránek získává potřebné informace. Jde o jiný přístup, než je např. generování dat ze strany provozovatele webu do datových (XML či CSV) feedů, posílání přes API a podobně. Oba přístupy mají své výhody. Obecně bych řekl, že preferujeme napojení přes feedy či API (kvůli rychlosti a efektivitě zpracování dat). Ovšem scrapování má své uplatnění. Například v těchto situacích.

:no_entry: XML feedy neexistují

Pokud dodavatel dat má potřebné informace na webu, ale vygenerovat z nich XML feed neumí. Zejména v zahraničí je tato situace častá. Dále může jít o weby bez košíku - velkoobchodní katalogy zboží, nabídky zájezdů, katalogy finančních produktů, kulturních akcí, zkrátka weby s vícestránkovým katalogem.

:unicorn: Feedy nepokrývají některé stránky

V případě e-shopů může jít např. o stránky kategorií, obsahové stránky blogu, statické stránky s kontakty aj. Tyto stránky obvykle XML feedy nepokrývají, na rozdíl od stránek s produkty.

:jar: Feedy existují, ale neobsahují potřebná data

V praxi se často stane, že XML feedy obsahují základní informace. Na webu jsou ale další informace navíc. Například o velikostech, podrobně rozvedená skladová dostupnost, parametry aj. Z webu lze pomocí Scraping Camela vytvořit feed, který uživatel buď použije v Mergadu pro vytvoření exportu, nebo může existující data do existujícího exportu připojit pravidlem datového importu.

:magic_wand: Ze stránek lze získat data, která jinde uvedena nejsou.

Scraping Camel dokáže analyzovat obsah webové stránky a získat z ní data, která jinde výslovně uvedena nejsou. O této funkcionalitě si povíme někdy podrobněji.

1 Like