Scraping Camel - NEWS

:camel: Scraping Camel - 10. verze - hromadné elementy

2024-10-13T22:00:00Z

Následující release rozšíří nástroje Scraping Camel pro data-driven SEO zásadním způsobem!

Novinky

  • Hromadné elementy: ústřední vylepšení nové verze. Nově umí Scraping Camel ze stránky získat všechny zpětné odkazy a všechny adresy obrázků. Tyto vrátí na nové stránce Hromadné elementy. Hromadné elementy podporují validaci. Podrobněji o nich níže.
  • Validace webových stránek:
    • Doplnili jsme nové systémové validátory. Celkem jich bude 35!
    • Nový typ validace, zda je URL zakázáno v /robots.txt (hodnotí se Googlebot a Seznambot).
  • Nově ukládáme informaci, kdy jsme stránku (URL) na webu našli poprvé:
    • Informace je dostupná v systémovém elementu DISCOVERED.
    • Na stránce Stránky lze filtrovat podle stáří stránek. Můžete si tak vypsat pouze stránky nové za poslední den, týden, měsíc…
  • Ověření domény přes Google Search Console nově bude fungovat také pro instance ověřené Google na úrovni celé domény.
  • Pokud cílový server odmítne spojení při zakládání nových webových stránek, nově vás v průvodci vytvořením webových stránek informujeme.

Hromadné elementy

Hromadné elementy jsou takové, u kterých na stránce najdeme více hodnot. Při hledání se Scraping Camel nezastaví u prvního výskytu daného elementu. Uloží všechny.

Jaké podporuje Scraping Camel hromadné elementy

Hromadné elementy rozlišujeme nyní dva:

  • Zpětné odkazy
  • Obrázky (adresy obrázků)

Jaké informace ke hromadným elementům Scraping Camel ukládá

  • Stránka, URL stránky, kde se daný element nachází.
  • URL, cílová URL souboru.
  • Text, v případě odkazů text uvnitř odkazu, v případě obrázků parametr alt.
  • HTTP kód, http kód cílové URL.
  • Velikost obsahu, velikost cílového souboru. Na stránce Hromadné elementy je v KB, ve validaci v B.
  • Typ obsahu, tzv mediatype. Příklad: image/png

K čemu jsou hromadné elementy užitečné

Umožní vám získat všechny odkazy a obrázky webu. Nad nimi můžete spouštět validace. Základní validátory jsme pro vás již připravili jako systémové. Můžete tak vypsat seznamy odkazů či obrázků, které na cílové URL nejsou - vrátí kód 404.

Vlastní validátory můžete tvořit dle libosti. Můžete např. vypsat seznam obrázků, které jsou příliš velkým souborem (několik MB) a pomalu se načítají. Můžete vypsat seznam odkazů, které nemají žádný popis a uživatelé je nevidí. Můžete vypsat stránky s odkazy, které jsou přesměrovány na jinou adresu aj.

Celkově je validace hromadných elementů velice užitečná a napoví vám mnoho o stavu webu.

Náhled stránky Hromadné elementy

Suma sumárum činí novinky Scraping Camela užitečnějším při kontrole webu z pohledu SEO. Může tak nahradit např. desktopové crawlery, jako bývalo Xenu.

Nechť vám tyto novinky @group_scrapingcamel slouží dobře.