Scraping Camel 🐫 NEWS

Na svět přišla nová aplikace :camel: Scraping Camel.
Rád bych na ni @group_specialists @group_feedmarketing upozornil.

:bulb: Co dělá Scraipng Camel

Prochází HTML stránky webu. Získává z nich informace. Tyto informace uloží a vygeneruje z nich jeden výstupní CSV soubor.

:gift: K čemu jsou data v CSV dobrá

Při návrhu aplikace jsem myslel na dvě hlavní využití.

1) Zpracování dat které ve standardních produktových feedech nejsou

:yellow_square: Těchto dat, co ve feedech nejsou a mohou se přitom hodit je celá řada. Jednou z příčin může být to, že ve standardních produktových feedech jsou data o produktových stránkách. Chybí ovšem data o stránkách kategorií, statických stránkách s kontakty, obchodními podmínkami a podobně!

:yellow_square: Druhým důvodem může být, že jde o web bez košíku, který datové feedy vůbec nemá. Ano, Scraping Camel může zpracovat i web bez košíku, nikoliv jen e-shop.

:yellow_square: Dalším důvodem může být to, že chcete získat informace, které jsou v samotných stránkách webu, CMS však informace o např. dostupnosti, benefitech, parametrech a podobně negeneruje do feedu. Nemusí jít přitom o klasická produktová data. Můžete si vyparsovat libovolnou část HTML kódu stránky. Můžete tedy parsovat např. klasická “SEO data” jako TITLE, META DESCRIPTION, H1 a podobně. Nebo si můžete vyparsovat např. ID značky Google Analytics či Google Tag Manageru, abyste ověřili zda jsou na všech stránkách, resp. kde chybí atp.

:information_source: Můžete z HTML stránek získat téměř libovolná data, což může být velmi mocné.

2) Tvorba feedů pro stránky, které datové feedy nemají

Zejména v zahraničí stále existují e-shopy, které nemají XML či CSV feedy s produktovými daty. Ty mohou Scraping Camel využít na tvorbu produktových feedů. Zpracování si přitom nastavíte sami. Nemusíte žádat administrátora aplikace.

:construction_worker_man: Jak funguje Scraping Camel

  • Úvodní nastavení
    • Uživatel vytvoří “web”. Jde o obdobu exportu v Mergadu. De facto jde o jednu doménu. Webů může být v jedné instalaci Scraping Camel více.
    • Ověření domény - podobně jako u Google je třeba ověřit vztah k doméně. Na výběr je z vložení souboru do webu, META TAG či DNS záznam. Scrapovat cizí weby nyní není cílem aplikace.
    • Vložení sitemap.xml a nastavení webu. Sitemap.xml je podmínkou fungování aplikace. Zde bere Camel URL stránek webu. Pozor na nastavení, uživatel nastavuje frekvenci procházení stránek webu. Příliš mnoho dotazů naráz by mohlo vést k přetížení webu. Příliš málo povede k tomu, že zpracování celého webu bude trvat dlouho.
    • Nastavení jaká data má Camel z HTML stránek získávat. Na výběr je pár základních elementů. Předpokládám, že každý využije vlastní elementy, které nastaví buď uvedením textů před a za hledanými informacemi, nebo za použití regulárního výrazu.
    • Nastavení jak se mají jmenovat data (sloupečky) ve výstupním CSV souboru.
    • Po ukončení nastavování začne Scraping Camel procházet cílový web. To bude nějakou dobu trvat. Až celý web zpracuje, vygeneruje výstupní CSV a v administraci uvede jeho adresu.
  • Dlouhodobá činnost:
    • Scraping Camel sám, pravidelně kontroluje sitemap.xml zda se objevily nové stránky. Kontroluje všechny stránky a případné změny promítne do výstupního CSV souboru.

:information_source: Rozdíl mezi Scraping Camel a Screaming Frog či Xenu

Možná vás napadla podobnost Scraping Camel se známými SEO crawlery. Zatímco ty obvykle spouští uživatel jednorázově na svém počítači, Scarping Camel běží na serveru, non-stop. Výstupy poskytuje ve strojově čitelné podobě, co lze dále strojově zpracovávat. Lze ho využít jak k jednorázovým analýzám, tak lze data automaticky zpracovávat dalším software.

:eggplant: Využití výstupního CSV souboru

CSV feed jsem zvolil proto, že je obecný. Lze ho otevřít v běžných kancelářských programech. Dále jej lze dobře strojově zpracovat.

  • Nahrát do Mergada jako vstupní soubor pro export a s tímto dále pracovat obvyklým způsobem.
  • Pravidlem datový import napojit data z CSV do existujícího exportu v Mergadu.
  • Zpracovat v jiné aplikaci.

:information_source: Využití CSV feedu není omezeno. Lze ho dále zpracovat jak v Mergadu tak mimo něj.

:brick: Příklady využití dat z CSV feedů

Využití je široké. Uvedu příklady.

  • SEO analýzy, kontroly stránek, měřících skriptů aj.
  • Datové analýzy produktů, stránek aj.
  • Reklamní kampaně postavené na datech z feedu - DSA kampaně aj.
  • …a další

:information_source: Scraping Camel je aplikace v Mergadu vázaná na e-shop

… a to i když není omezena, že musí zpracovávat stejnou doménu - nemusí. Cílem je to, že e-shop v Mergadu umožňuje spravovat přístupy uživatelů. Navíc se domnívám, že data náležejí obvykle nějakému e-shopu (či webu bez košíku) resp. nějaké společnosti či lidem. Pokud tedy Camel nasadí např. agentura, dává smysl zapnout aplikaci na e-shopu klienta. Např. pro to, že až jednou spolupráce s klientem skončí, Camela i s nastavením bude moci klientovi předat.

:white_check_mark: Jak je na tom aplikace nyní

V Mergado Store nyní můžete zkoušet verzi 1.0. Ta prošla testováním a je plně funkční. Máme v plánu vylepšit české texty v aplikaci tak, aby byla aplikace lépe k pochopení. To ovšem nemá vliv na funkčnost.

:framed_picture: Jak vypadá Scraping Camel

Hlavní stránka “webu” s nastaveními a URL výstupného CSV

Nastavení dat, která má Camel z HTML stránek získat

Seznam stránek které Camel zpracoval

Příklad výstupních dat, je to CSV

Logo Scraping Camel

Scraping_Camel_logo_60x60

:arrow_right: Další informace & vyzkoušení

Pro další informace a vyzkoušení aplikace pokračujte do Mergado Store.

4 Likes
Funkce | Audit XML | Agentury | Nápověda | Blog | Forum | Kontakt