Scraping Camel NEWS

Na svět přišla nová aplikace :camel: Scraping Camel.
Rád bych na ni @group_specialists @group_feedmarketing upozornil.

:bulb: Co dělá Scraping Camel

Prochází HTML stránky webu. Získává z nich informace. Tyto informace uloží a vygeneruje z nich jeden výstupní CSV soubor.

:gift: K čemu jsou data v CSV dobrá

Při návrhu aplikace jsem myslel na dvě hlavní využití.

1) Zpracování dat které ve standardních produktových feedech nejsou

:yellow_square: Těchto dat, co ve feedech nejsou a mohou se přitom hodit je celá řada. Jednou z příčin může být to, že ve standardních produktových feedech jsou data o produktových stránkách. Chybí ovšem data o stránkách kategorií, statických stránkách s kontakty, obchodními podmínkami a podobně!

:yellow_square: Druhým důvodem může být, že jde o web bez košíku, který datové feedy vůbec nemá. Ano, Scraping Camel může zpracovat i web bez košíku, nikoliv jen e-shop.

:yellow_square: Dalším důvodem může být to, že chcete získat informace, které jsou v samotných stránkách webu, CMS však informace o např. dostupnosti, benefitech, parametrech a podobně negeneruje do feedu. Nemusí jít přitom o klasická produktová data. Můžete si vyparsovat libovolnou část HTML kódu stránky. Můžete tedy parsovat např. klasická “SEO data” jako TITLE, META DESCRIPTION, H1 a podobně. Nebo si můžete vyparsovat např. ID značky Google Analytics či Google Tag Manageru, abyste ověřili zda jsou na všech stránkách, resp. kde chybí atp.

:information_source: Můžete z HTML stránek získat téměř libovolná data, což může být velmi mocné.

2) Tvorba feedů pro stránky, které datové feedy nemají

Zejména v zahraničí stále existují e-shopy, které nemají XML či CSV feedy s produktovými daty. Ty mohou Scraping Camel využít na tvorbu produktových feedů. Zpracování si přitom nastavíte sami. Nemusíte žádat administrátora aplikace.

:construction_worker_man: Jak funguje Scraping Camel

  • Úvodní nastavení
    • Uživatel vytvoří “web”. Jde o obdobu exportu v Mergadu. De facto jde o jednu doménu. Webů může být v jedné instalaci Scraping Camel více.
    • Ověření domény - podobně jako u Google je třeba ověřit vztah k doméně. Na výběr je z vložení souboru do webu, META TAG či DNS záznam. Scrapovat cizí weby nyní není cílem aplikace.
    • Vložení sitemap.xml a nastavení webu. Sitemap.xml je podmínkou fungování aplikace. Zde bere Camel URL stránek webu. Pozor na nastavení, uživatel nastavuje frekvenci procházení stránek webu. Příliš mnoho dotazů naráz by mohlo vést k přetížení webu. Příliš málo povede k tomu, že zpracování celého webu bude trvat dlouho.
    • Nastavení jaká data má Camel z HTML stránek získávat. Na výběr je pár základních elementů. Předpokládám, že každý využije vlastní elementy, které nastaví buď uvedením textů před a za hledanými informacemi, nebo za použití regulárního výrazu.
    • Nastavení jak se mají jmenovat data (sloupečky) ve výstupním CSV souboru.
    • Po ukončení nastavování začne Scraping Camel procházet cílový web. To bude nějakou dobu trvat. Až celý web zpracuje, vygeneruje výstupní CSV a v administraci uvede jeho adresu.
  • Dlouhodobá činnost:
    • Scraping Camel sám, pravidelně kontroluje sitemap.xml zda se objevily nové stránky. Kontroluje všechny stránky a případné změny promítne do výstupního CSV souboru.

:information_source: Rozdíl mezi Scraping Camel a Screaming Frog či Xenu

Možná vás napadla podobnost Scraping Camel se známými SEO crawlery. Zatímco ty obvykle spouští uživatel jednorázově na svém počítači, Scarping Camel běží na serveru, non-stop. Výstupy poskytuje ve strojově čitelné podobě, co lze dále strojově zpracovávat. Lze ho využít jak k jednorázovým analýzám, tak lze data automaticky zpracovávat dalším software.

:eggplant: Využití výstupního CSV souboru

CSV feed jsem zvolil proto, že je obecný. Lze ho otevřít v běžných kancelářských programech. Dále jej lze dobře strojově zpracovat.

  • Nahrát do Mergada jako vstupní soubor pro export a s tímto dále pracovat obvyklým způsobem.
  • Pravidlem datový import napojit data z CSV do existujícího exportu v Mergadu.
  • Zpracovat v jiné aplikaci.

:information_source: Využití CSV feedu není omezeno. Lze ho dále zpracovat jak v Mergadu tak mimo něj.

:brick: Příklady využití dat z CSV feedů

Využití je široké. Uvedu příklady.

  • SEO analýzy, kontroly stránek, měřících skriptů aj.
  • Datové analýzy produktů, stránek aj.
  • Reklamní kampaně postavené na datech z feedu - DSA kampaně aj.
  • …a další

:information_source: Scraping Camel je aplikace v Mergadu vázaná na e-shop

… a to i když není omezena, že musí zpracovávat stejnou doménu - nemusí. Cílem je to, že e-shop v Mergadu umožňuje spravovat přístupy uživatelů. Navíc se domnívám, že data náležejí obvykle nějakému e-shopu (či webu bez košíku) resp. nějaké společnosti či lidem. Pokud tedy Camel nasadí např. agentura, dává smysl zapnout aplikaci na e-shopu klienta. Např. pro to, že až jednou spolupráce s klientem skončí, Camela i s nastavením bude moci klientovi předat.

:white_check_mark: Jak je na tom aplikace nyní

V MERGADO Store nyní můžete zkoušet verzi 1.0. Ta prošla testováním a je plně funkční. Máme v plánu vylepšit české texty v aplikaci tak, aby byla aplikace lépe k pochopení. To ovšem nemá vliv na funkčnost.

:framed_picture: Jak vypadá Scraping Camel

Hlavní stránka “webu” s nastaveními a URL výstupného CSV

Nastavení dat, která má Camel z HTML stránek získat

Seznam stránek které Camel zpracoval

Příklad výstupních dat, je to CSV

Logo Scraping Camel

Scraping_Camel_logo_60x60

:arrow_right: Další informace & vyzkoušení

Pro další informace a vyzkoušení aplikace pokračujte do MERGADO Store.

4 Likes

Nová verze :camel: SCRAPING CAMEL

Připravujeme pro Vás novou verzi aplikace Scraping Camel.

:calendar: Plánovaný termín nasazení: 2021-08-22T22:00:00Z

Novinka

Stávající verze Camela hledá URL stránek v sitemap.xml. Pokud URL jednou najde, navždy si ji zapamatuje a prohledává. I když URL stránky ze sitemapy zmizí. Nová verze Camela bude prohledávat pouze URL, které v sitemap.xml právě budou. Pokud URL zmizí, Camel ji odstraní ze svého hledání i z výstupního CSV. Cílem je ve výstupním CSV mít pouze stránky, které na webu jsou, nebo by podle sitemap.xml být měly.

Nová verze aplikace :camel: SCRAPING CAMEL - 2021-11-23T23:00:00Z - “3.0” - nastavení elementů

Vylepšenou definici scrapovaných elementů, novou navigaci, exporty do CSV, vlastní URL stránek a další vylepšení přinesl středeční release.

Co je nového

Automatická detekce elementů

:safety_pin: Automatická detekce elementů

Ústředním vylepšením je vylepšená definice elementů pro parsování z webových stránek. Nově Scraping Camel náhodně vybere jednu stránku, analyzuje její zdrojový kód a ze slovníku známých elementů navrhne elementy, které na stránce našel. Ukáže jak elementy, tak náhledy hodnot nalezených na dané stránce. Uživateli pro zpracování elementu stačí zakliknout checkbox Aktivní. Vpravo na stránce uživatel vidí zdrojový kód zpracovávané stránky. URL stránky může změnit. V případě editace existujícího webu změna může být de facto libovolná. V případě zakládání nového webu se může stát, že uživatel zadá URL stránky, kterou Scraping Camel ještě nestáhl a nezpracoval.


Náhled vylepšení stránky s definicí scrapovaných elementů.

Toto vylepšení se týká jak stránky v průvodci založením nového webu tak editaci nastavení na stránce Elementy → Editovat elementy. Elementy se nyní zobrazí ve třech rozbalovacích částech:

  • Nalezené elementy - známé elementy nalezené na dané stránce
  • Nenalezené elementy - známé elementy, pro které daná stránka nemá hodnotu. Je možné je zapnout. Případně lze do políčka Náhled zdrojového kódu stránky zadat jinou URL.
  • Vlastní elementy - i nadále ústřední část aplikace. Elementy definované uživatelem.

Nová struktura a vzhled menu, vlastní URL stránek aplikace

:ferris_wheel: Nová struktura a vzhled menu, vlastní URL stránek aplikace

Upravili jsme strukturu menu. Nově jsou stránky organizovány takto:

  • Webové stránky
    • Exporty
      • Vytvořit nový export
    • Stránky
    • Elementy
      • Editovat elementy
    • Nastavení

Dále jsme zavedli sekundární menu a podstránky aplikace dostaly vlastní URL.

Exporty do CSV

:gift: Exporty do CSV

Tabulky s přehledy dat jsme doplnili o tlačítko Stáhnout CSV. CSV soubor obsahuje veškerá data z daného přehledu. Týká se jak tabulek s detailními informacemi o dané stránce, tak tabulek s informacemi o daném elemetu.

Vylepšení administrace

:paintbrush: Vylepšení administrace

Vylepšili jsme stránky aplikace o řadu prvků.

  • Ikony Kopírovat hodnotu do schránky pro snazší kopírování hodnot
  • Odkaz Navštívit stránku z detailu stránky
  • Stránkování tabulek, je-li hodnot mnoho
  • Filtrování v tabulkách
  • Sloupec s počtem unikátních hodnot elementu
  • …a další.

Co přinesou novinky uživatelům

Zejména snazší nastavení scrapování běžných elementů. I nadále považuji za klíčové scrapování Vlastních elementů (v případě e-shopu např. cena zboží, skladová dostupnost, obrázky, parametry…), nicméně běžné známe elementy, např. META značky, Twittercards, OpenGraph nyní pomůže Scraping Camel navrhnout. Dále mnohá vylepšení administrace aplikace vylepší práci s ní. Zjednoduší porozumění datům, zefektivní kontrolu dat na cílových stránkách webu aj.

Nechť Vám :camel: Scraping Camel dobře slouží.

3 Likes

:construction_worker_man: Plánovaná odstávka

2022-01-05T08:00:00Z budeme přesouvat aplikaci Scraping Camel na nový server. Aplikace bude dopoledne odstavena z provozu. Následně se změní IP adresa ze které aplikace na stránky přistupuje.

:stopwatch: Zkušební dobu scraping-camel jsme prodloužili na 30 dní

Změnil jsem nastavení aplikace v MERGADO Store a prodloužil zkušební dobu z 10 na 30 dní. Cílem je více času, kdy můžete aplikaci zdarma otestovat. Změna by se měla projevit již v následující fakturaci. Snad vám tedy prodloužení zkušební doby bude k užitku.

1 Like

:camel: Scraping Camel - 4. verze - nastavení crawlovaných URL

2022-08-24T22:00:00Z

Přehled novinek

  • :star: Nastavení omezení crawlovaných URL
  • Nové filtry ve vyhledávání v hodnotách elementu
  • Zarovnání sloupců s čísly v tabulkách
  • Zjednodušení widgetů na hlavní stránce


:camel: MERGADO Editor podporuje formát feedů Scraping Camel

Nová verze MERGADO Editoru přinesla podporu formátu CSV feedů Scraping Camel. Oproti dosavadní praxi, kdy jsme používali Plain CSV (obecné CSV) či custom formáty (uživatelsky definovaný formát) zjednoduší oficiální podpora formátu práci v MERGADO Editoru. Ten automaticky rozpozná názvy položek (items, shopitems) či URL stránek a zobrazí je na správných místech.

@group_scrapingcamel

1 Like

:camel: Scraping Camel - 5. verze - AI elementy

2022-10-16T22:00:00Z

Scraping Camel AI

Nová verze Scraping Camel přinese tři nové elementy. Najdete je v editaci elementů, v nové kategorii Scraping Camel AI. Na rozdíl od dosavadních elementů, jejichž obsah ze zdrojového kódu definujete buď ručně či je Scraping Camel vyhledá automaticky pomocí regulárních výrazů či textu před a za danou hodnotou, nové AI elementy vyhledají automaticky speciální matematické funkce (AI je zkratka Artificial Intelligence a znamená umělou inteligenci).

Jaké elementy jsou a jaké hodnoty ze stránek získají

Element Výstup Obsah
SC_NUMBER_OF_WORDS číslo Počet slov na stránce
SC_MAIN_TITLE krátký text Titulek stránky. Malými písmeny.
SC_WORDS_COUNT seznam slov oddělených čárkami Klíčová slova informující o obsahu stránky. Vždy jedno slovo.

Jak s elementy pracovat

Hodnoty berte jako signál. Neřešte příliš, jak jsou počítané. Například SC_NUMBER_OF_WORDS informuje o počtu slov na stránce. Scraping Camel AI nejprve webovou stránku zpracuje. Odstraní HTML značky a další obsah, který považuje za nepodstatný. Následně spočítá, kolik je v tomto, již zpracovaném obsahu, slov. Pokud byste se na cílové webové stránce snažili jednotlivá slova počítat, nejspíš vám vyjde jiné číslo. I tak je element SC_NUMBER_OF_WORDS velmi cenný. Pokud bude obsahovat číslo 2000, bude na stránce jistě mnohem více slov, než pokud bude obsahovat hodnotu 50. Zde je jich na stránce ve stutečnosti 1999 nebo 2004 je druhořadé. Ostatně i toto číslo se počítá docela špatně a neznamená vlastně nic. Ale o tom si povíme na některém z webinářů :wink:

Kde Scraping Camel AI najdete

Elementy najdete na stejných místech co běžné elementy. Tedy v průvodci vytvořením nového webu či stránce editace elementů.


Nastavení Scraping Camel AI

Na stránce Nastavení najdete nově sekundární menu. Klikněte na Nastavení AI elementů. Zde můžete nastavit parametry generování klíčových slov, stop slova, která chcete z generování vypustit a další.

Co nás čeká do budoucna

Element SC_WORDS_COUNT resp. metoda, která jeho obsah vypočítává je první z metod, kterou jsme uveřejnili. Testujeme nyní cca desítku dalších metod. Ty se liší svými výsledky. Nejlepší z metod budeme postupně uveřejňovat v budoucích verzích Scraping Camel. O tom, proč připravíme metod více a o jejich vlastnostech, si povíme více na některém z budoucích webinářů.


Ilustrace

1 Like

:camel: Scraping Camel - 5.1 verze - AI elementy

2022-10-24T22:00:00Z

Byla vylepšena Scraping Camel AI:

  • Lepší detekce jazyka v hraničních situacích.
  • Lepší chování u velmi rozsáhlých stránek (např. 20.ooo slov).

Uvedená vylepšení zlepší chování ve specifických situacích.

Nový termín školení :camel: category feedů

2022-11-23T09:00:00Z

Minulé školení tvorby category feedů pro google-ads a sklik se (prý) líbilo. Tak jsme přidali ještě jeden předvánoční termín. Termín je ve středu dopoledne. Rozsah cca hodinka. Projdeme si základy ovládání aplikace Scraping Camel a naklikáme category feed pro PPC reklamu. Navíc vysvětlím zpracování dat webů bez košíku a doplňování produktových feedů. Školení je určeno pro ty, kdo na minulém školení nebyli (stejná osnova obsahu). Hodí se pro správce PPC reklamy či specialisty pracující v marketingu s daty. Budu rád, když se @group_scrapingcamel na školení potkáme. Registrace je ns tránce školení v MERGADO Academy pod odkazem níže.

:camel: Scraping Camel - 6. verze - nové AI elementy, nastavení zpracování číslic, optimalizace zpracování velkých webů

2023-01-02T23:00:00Z

Zítřejší release přinese následující novinky a vylepšení.

:alembic: Nové elementy Scraping Camel AI

Přidali jsme nové elementy Scraping Camel AI pro automatizované zpracování obsahu stránek.

Název elementu Výstup
SC_DETECTED_LANGUAGE Kód detekovaného jazyka. Např. cs
SC_WORDS_TUPLES_COUNT Seznam dvojslovných klíčových slov oddělených čárkou
SC_WORDS_AGG_MIN_FREQ_3 Seznam klíčových slov vzniklý spojením metod SC_WORDS_TUPLES_COUNT a SC_WORDS_COUNT

K čemu se nové elementy hodí

Uvedu příklady pro inspiraci. Využití je velké množství.

  • SC_DETECTED_LANGUAGE kód jazyka stanoví Scraping Camel AI z textového obsahu stránky. Pokud se hodnota jazyka liší od hodnoty očekávané, stojí stránka za kontrolu. Může obsahovat vysoké množství cizích slov. Nebo třeba stránku zapomenutou při lokalizaci webu v původním jazyce.
  • SC_WORDS_TUPLES_COUNT metoda navazuje na předchozí metodu SC_WORDS_COUNT z minulého release. Na rozdíl od ní ovšem uvede dvojslovná klíčová slova. Rozšiřuje tím zpracování stránky. Zachytí výrazy jako např. “PPC reklama”, “Google Ads” a podobně.
  • SC_WORDS_AGG_MIN_FREQ_3 je první metodou, která nezpracuje stránku přímo. Vezme výsledky metod SC_WORDS_TUPLES_COUNT a SC_WORDS_COUNT. Ty dále zpracuje a nad nimi vyhodnotí výsledky. Výstupem jeden seznam, který může obsahovat jednoslovná a dvojslovná klíčová slova.

Nově budeme mít tři různé metody generování klíčových slov. Pro různé weby se nám při testování osvědčovaly metody různě dobře. Výběr nejlepší metody budete mít vy ve svých rukou.


Náhled nastavení elementů Scraping Camel AI

:1234: Vylepšené nastavení zpracování číslic Scraping Camel AI

Nastavení Scarping Camel AI umožňovalo dosud z generování klíčových slov buď slova obsahující číslice zpracovat, nebo vyloučit “slova” obsahující pouze číslice. Nově můžete vyloučit slova, která obsahují alespoň jednu libovolnou číslici. Hodí se pro vyloučení telefonních čísel (na začátku obsahují někdy znak +), kontaktních adres, ID produktů (často řetězec číslic a písmen) a podobně.


Nastavení zpracování slov s číslicemi. Na stránce Nastavení.

:racehorse: Ověření vlastnictví webu přes Google Search Console

Mezi metody ověření vlastnictví webu jsme k umístění HTML stránky na web, META značky do kódu stránek a DNS záznamu přidali také ověření přes Google Search Consoli. Pokud máte přístup k doméně (s libovolným oprávněním), můžete tuto metodu nově využít.


Ověření vlastnictví domény přes Google Search Console

:speedboat: Zrychlení načítání stránek administrace u webů s velkým počtem stránek

Webové stránky s desítkami tisíc URL se dosud mohly načítat v administraci Scraping Camela pomaleji. Toto bylo napraveno.

:factory: Optimalizace generování výstupního feedu

Generování výstupního feedu pro webové stránky s desítkami tisíc URL mohlo končit chybou. Generování jsme zoptimalizovali tak, aby v pořádku probíhalo.

Nechť Vám novinky slouží dobře.

1 Like

:camel: Scraping Camel - 7. verze - klíčová slova, fráze, nové elementy

2023-03-26T22:00:00Z

Pondělní release přinese zcela novou agendu klíčová slova, nastavení víceslovných frází a další důležitá vylepšení.

Klíčová slova

Nová část aplikace vám umožní z jedné či více webových stránek vytvořit agendu klíčových slov. Klíčová slova je pak ze stránek možné získat a prohlížet v rozhraní aplikace i exportovat ve formě CSV feedů. Ty mohou obsahovat elementy:

  • KEYWORD klíčové slovo
  • URL adresa stránky s nejvyšším score
  • TOP_SCORE hodnota nejvyššího score
  • PAGES_COUNT počet stránek, kde se klíčové slovo dostalo mezi TOP klíčová slova

Zobrazení elementů v exportu si můžete nastavit v nastavení exportu.

:bulb: Agenda Klíčová slova je obsáhlá a obsahuje důležité funkce. Podrobněji ji popíši zde na fóru. Také se na ni podíváme na školení MERGADO Academy.

Fráze

Nastavení webové stránky, část nastavení AI nově umožní definovat slovní spojení, která chcete zpracovávat dohromady jako jedno klíčové slovo, i když jde o více slov. Říkáme jim fráze. O toto se Scraping Camel AI snaží i sám. Nově jí můžete pomoci. Příklad víceslovné fráze: bidding fox.

Nové elementy

Přidali jsme nově další předdefinované elementy:

  • DCTERMS_RIGHTSHOLDER subjekt držící autorská práva k obsahu stránky
  • ARTICLE_PUBLISHEDTIME datum publikování článku
  • ARTICLE_MODIFIEDTIME datum editace článku
  • GTAGMANAGER ID Google Tag Manageru
  • PRODUCTPRICEAMOUNT cena zboží podle Open Graph
  • PRODUCTPRICECURRENCY měna ceny zboží

Další vylepšení

Přidali jsme celou řadu dalších vylepšení. Jak do jádra aplikace, tak do uživatelského rozhraní. Pořadí elementů ve výstupních feedech můžete nově měnit drag & drop, nikoliv klikáním šipek, ze stránky s definicí elementů je proklik na cílovou stránku, změnili jsme řazení na stránce Elementy a další.

Nová verze přináší zásadní inovace Scraping Camela. Nechť vám přináší užitek.

1 Like

:camel: Scraping Camel - 7.1 verze

V uplynulých (tý)dnech jsme nasadili vylepšení komponent Scraping Camel AI, které zajišťují zpracování dat.

  • :hungary: Maďarský lematizátor: pomáhá hledat hlavní tvar slova v maďarštině.
  • :black_flag: Detekci jazyka SC_DETECTED_LANGUAGE jsme přepracovali tak, že vrací rozpoznaný jazyk vždy, i když jej Scraping Camel výslovně nepodporuje.

Obě novinky vylepšily výsledky zpracování dat. Uživatelé nemusí nic nastavovat. Vše funguje samo automaticky.

1 Like