🐫 Scraping Camel NEWS

Na svět přišla nová aplikace :camel: Scraping Camel.
Rád bych na ni @group_specialists @group_feedmarketing upozornil.

:bulb: Co dělá Scraipng Camel

Prochází HTML stránky webu. Získává z nich informace. Tyto informace uloží a vygeneruje z nich jeden výstupní CSV soubor.

:gift: K čemu jsou data v CSV dobrá

Při návrhu aplikace jsem myslel na dvě hlavní využití.

1) Zpracování dat které ve standardních produktových feedech nejsou

:yellow_square: Těchto dat, co ve feedech nejsou a mohou se přitom hodit je celá řada. Jednou z příčin může být to, že ve standardních produktových feedech jsou data o produktových stránkách. Chybí ovšem data o stránkách kategorií, statických stránkách s kontakty, obchodními podmínkami a podobně!

:yellow_square: Druhým důvodem může být, že jde o web bez košíku, který datové feedy vůbec nemá. Ano, Scraping Camel může zpracovat i web bez košíku, nikoliv jen e-shop.

:yellow_square: Dalším důvodem může být to, že chcete získat informace, které jsou v samotných stránkách webu, CMS však informace o např. dostupnosti, benefitech, parametrech a podobně negeneruje do feedu. Nemusí jít přitom o klasická produktová data. Můžete si vyparsovat libovolnou část HTML kódu stránky. Můžete tedy parsovat např. klasická “SEO data” jako TITLE, META DESCRIPTION, H1 a podobně. Nebo si můžete vyparsovat např. ID značky Google Analytics či Google Tag Manageru, abyste ověřili zda jsou na všech stránkách, resp. kde chybí atp.

:information_source: Můžete z HTML stránek získat téměř libovolná data, což může být velmi mocné.

2) Tvorba feedů pro stránky, které datové feedy nemají

Zejména v zahraničí stále existují e-shopy, které nemají XML či CSV feedy s produktovými daty. Ty mohou Scraping Camel využít na tvorbu produktových feedů. Zpracování si přitom nastavíte sami. Nemusíte žádat administrátora aplikace.

:construction_worker_man: Jak funguje Scraping Camel

  • Úvodní nastavení
    • Uživatel vytvoří “web”. Jde o obdobu exportu v Mergadu. De facto jde o jednu doménu. Webů může být v jedné instalaci Scraping Camel více.
    • Ověření domény - podobně jako u Google je třeba ověřit vztah k doméně. Na výběr je z vložení souboru do webu, META TAG či DNS záznam. Scrapovat cizí weby nyní není cílem aplikace.
    • Vložení sitemap.xml a nastavení webu. Sitemap.xml je podmínkou fungování aplikace. Zde bere Camel URL stránek webu. Pozor na nastavení, uživatel nastavuje frekvenci procházení stránek webu. Příliš mnoho dotazů naráz by mohlo vést k přetížení webu. Příliš málo povede k tomu, že zpracování celého webu bude trvat dlouho.
    • Nastavení jaká data má Camel z HTML stránek získávat. Na výběr je pár základních elementů. Předpokládám, že každý využije vlastní elementy, které nastaví buď uvedením textů před a za hledanými informacemi, nebo za použití regulárního výrazu.
    • Nastavení jak se mají jmenovat data (sloupečky) ve výstupním CSV souboru.
    • Po ukončení nastavování začne Scraping Camel procházet cílový web. To bude nějakou dobu trvat. Až celý web zpracuje, vygeneruje výstupní CSV a v administraci uvede jeho adresu.
  • Dlouhodobá činnost:
    • Scraping Camel sám, pravidelně kontroluje sitemap.xml zda se objevily nové stránky. Kontroluje všechny stránky a případné změny promítne do výstupního CSV souboru.

:information_source: Rozdíl mezi Scraping Camel a Screaming Frog či Xenu

Možná vás napadla podobnost Scraping Camel se známými SEO crawlery. Zatímco ty obvykle spouští uživatel jednorázově na svém počítači, Scarping Camel běží na serveru, non-stop. Výstupy poskytuje ve strojově čitelné podobě, co lze dále strojově zpracovávat. Lze ho využít jak k jednorázovým analýzám, tak lze data automaticky zpracovávat dalším software.

:eggplant: Využití výstupního CSV souboru

CSV feed jsem zvolil proto, že je obecný. Lze ho otevřít v běžných kancelářských programech. Dále jej lze dobře strojově zpracovat.

  • Nahrát do Mergada jako vstupní soubor pro export a s tímto dále pracovat obvyklým způsobem.
  • Pravidlem datový import napojit data z CSV do existujícího exportu v Mergadu.
  • Zpracovat v jiné aplikaci.

:information_source: Využití CSV feedu není omezeno. Lze ho dále zpracovat jak v Mergadu tak mimo něj.

:brick: Příklady využití dat z CSV feedů

Využití je široké. Uvedu příklady.

  • SEO analýzy, kontroly stránek, měřících skriptů aj.
  • Datové analýzy produktů, stránek aj.
  • Reklamní kampaně postavené na datech z feedu - DSA kampaně aj.
  • …a další

:information_source: Scraping Camel je aplikace v Mergadu vázaná na e-shop

… a to i když není omezena, že musí zpracovávat stejnou doménu - nemusí. Cílem je to, že e-shop v Mergadu umožňuje spravovat přístupy uživatelů. Navíc se domnívám, že data náležejí obvykle nějakému e-shopu (či webu bez košíku) resp. nějaké společnosti či lidem. Pokud tedy Camel nasadí např. agentura, dává smysl zapnout aplikaci na e-shopu klienta. Např. pro to, že až jednou spolupráce s klientem skončí, Camela i s nastavením bude moci klientovi předat.

:white_check_mark: Jak je na tom aplikace nyní

V Mergado Store nyní můžete zkoušet verzi 1.0. Ta prošla testováním a je plně funkční. Máme v plánu vylepšit české texty v aplikaci tak, aby byla aplikace lépe k pochopení. To ovšem nemá vliv na funkčnost.

:framed_picture: Jak vypadá Scraping Camel

Hlavní stránka “webu” s nastaveními a URL výstupného CSV

Nastavení dat, která má Camel z HTML stránek získat

Seznam stránek které Camel zpracoval

Příklad výstupních dat, je to CSV

Logo Scraping Camel

Scraping_Camel_logo_60x60

:arrow_right: Další informace & vyzkoušení

Pro další informace a vyzkoušení aplikace pokračujte do Mergado Store.

4 Likes

Nová verze :camel: SCRAPING CAMEL

Připravujeme pro Vás novou verzi aplikace Scraping Camel.

:calendar: Plánovaný termín nasazení: 2021-08-22T22:00:00Z

Novinka

Stávající verze Camela hledá URL stránek v sitemap.xml. Pokud URL jednou najde, navždy si ji zapamatuje a prohledává. I když URL stránky ze sitemapy zmizí. Nová verze Camela bude prohledávat pouze URL, které v sitemap.xml právě budou. Pokud URL zmizí, Camel ji odstraní ze svého hledání i z výstupního CSV. Cílem je ve výstupním CSV mít pouze stránky, které na webu jsou, nebo by podle sitemap.xml být měly.

Nová verze aplikace :camel: SCRAPING CAMEL - 2021-11-23T23:00:00Z - “3.0” - nastavení elementů

Vylepšenou definici scrapovaných elementů, novou navigaci, exporty do CSV, vlastní URL stránek a další vylepšení přinesl středeční release.

Co je nového

Automatická detekce elementů

:safety_pin: Automatická detekce elementů

Ústředním vylepšením je vylepšená definice elementů pro parsování z webových stránek. Nově Scraping Camel náhodně vybere jednu stránku, analyzuje její zdrojový kód a ze slovníku známých elementů navrhne elementy, které na stránce našel. Ukáže jak elementy, tak náhledy hodnot nalezených na dané stránce. Uživateli pro zpracování elementu stačí zakliknout checkbox Aktivní. Vpravo na stránce uživatel vidí zdrojový kód zpracovávané stránky. URL stránky může změnit. V případě editace existujícího webu změna může být de facto libovolná. V případě zakládání nového webu se může stát, že uživatel zadá URL stránky, kterou Scraping Camel ještě nestáhl a nezpracoval.


Náhled vylepšení stránky s definicí scrapovaných elementů.

Toto vylepšení se týká jak stránky v průvodci založením nového webu tak editaci nastavení na stránce Elementy → Editovat elementy. Elementy se nyní zobrazí ve třech rozbalovacích částech:

  • Nalezené elementy - známé elementy nalezené na dané stránce
  • Nenalezené elementy - známé elementy, pro které daná stránka nemá hodnotu. Je možné je zapnout. Případně lze do políčka Náhled zdrojového kódu stránky zadat jinou URL.
  • Vlastní elementy - i nadále ústřední část aplikace. Elementy definované uživatelem.

Nová struktura a vzhled menu, vlastní URL stránek aplikace

:ferris_wheel: Nová struktura a vzhled menu, vlastní URL stránek aplikace

Upravili jsme strukturu menu. Nově jsou stránky organizovány takto:

  • Webové stránky
    • Exporty
      • Vytvořit nový export
    • Stránky
    • Elementy
      • Editovat elementy
    • Nastavení

Dále jsme zavedli sekundární menu a podstránky aplikace dostaly vlastní URL.

Exporty do CSV

:gift: Exporty do CSV

Tabulky s přehledy dat jsme doplnili o tlačítko Stáhnout CSV. CSV soubor obsahuje veškerá data z daného přehledu. Týká se jak tabulek s detailními informacemi o dané stránce, tak tabulek s informacemi o daném elemetu.

Vylepšení administrace

:paintbrush: Vylepšení administrace

Vylepšili jsme stránky aplikace o řadu prvků.

  • Ikony Kopírovat hodnotu do schránky pro snazší kopírování hodnot
  • Odkaz Navštívit stránku z detailu stránky
  • Stránkování tabulek, je-li hodnot mnoho
  • Filtrování v tabulkách
  • Sloupec s počtem unikátních hodnot elementu
  • …a další.

Co přinesou novinky uživatelům

Zejména snazší nastavení scrapování běžných elementů. I nadále považuji za klíčové scrapování Vlastních elementů (v případě e-shopu např. cena zboží, skladová dostupnost, obrázky, parametry…), nicméně běžné známe elementy, např. META značky, Twittercards, OpenGraph nyní pomůže Scraping Camel navrhnout. Dále mnohá vylepšení administrace aplikace vylepší práci s ní. Zjednoduší porozumění datům, zefektivní kontrolu dat na cílových stránkách webu aj.

Nechť Vám :camel: Scraping Camel dobře slouží.

3 Likes

:construction_worker_man: Plánovaná odstávka

2022-01-05T08:00:00Z budeme přesouvat aplikaci Scraping Camel na nový server. Aplikace bude dopoledne odstavena z provozu. Následně se změní IP adresa ze které aplikace na stránky přistupuje.

:stopwatch: Zkušební dobu #scraping-camel jsme prodloužili na 30 dní

Změnil jsem nastavení aplikace v Mergado Store a prodloužil zkušební dobu z 10 na 30 dní. Cílem je více času, kdy můžete aplikaci zdarma otestovat. Změna by se měla projevit již v následující fakturaci. Snad vám tedy prodloužení zkušební doby bude k užitku.

1 Like

:camel: Scraping Camel - 4. verze - nastavení crawlovaných URL

2022-08-24T22:00:00Z

Přehled novinek

  • :star: Nastavení omezení crawlovaných URL
  • Nové filtry ve vyhledávání v hodnotách elementu
  • Zarovnání sloupců s čísly v tabulkách
  • Zjednodušení widgetů na hlavní stránce


:camel: MERGADO Editor podporuje formát feedů Scraping Camel

Nová verze MERGADO Editoru přinesla podporu formátu CSV feedů Scraping Camel. Oproti dosavadní praxi, kdy jsme používali Plain CSV (obecné CSV) či custom formáty (uživatelsky definovaný formát) zjednoduší oficiální podpora formátu práci v MERGADO Editoru. Ten automaticky rozpozná názvy položek (items, shopitems) či URL stránek a zobrazí je na správných místech.

@group_scrapingcamel

1 Like