Scraping Camel - 10. verze - hromadné elementy
2024-10-13T22:00:00Z
Následující release rozšíří nástroje Scraping Camel pro data-driven SEO zásadním způsobem!
Novinky
- Hromadné elementy: ústřední vylepšení nové verze. Nově umí Scraping Camel ze stránky získat všechny zpětné odkazy a všechny adresy obrázků. Tyto vrátí na nové stránce Hromadné elementy. Hromadné elementy podporují validaci. Podrobněji o nich níže.
- Validace webových stránek:
- Doplnili jsme nové systémové validátory. Celkem jich bude 35!
- Nový typ validace, zda je URL zakázáno v /robots.txt (hodnotí se Googlebot a Seznambot).
- Nově ukládáme informaci, kdy jsme stránku (URL) na webu našli poprvé:
- Informace je dostupná v systémovém elementu
DISCOVERED. - Na stránce Stránky lze filtrovat podle stáří stránek. Můžete si tak vypsat pouze stránky nové za poslední den, týden, měsíc…
- Informace je dostupná v systémovém elementu
- Ověření domény přes Google Search Console nově bude fungovat také pro instance ověřené Google na úrovni celé domény.
- Pokud cílový server odmítne spojení při zakládání nových webových stránek, nově vás v průvodci vytvořením webových stránek informujeme.
Hromadné elementy
Hromadné elementy jsou takové, u kterých na stránce najdeme více hodnot. Při hledání se Scraping Camel nezastaví u prvního výskytu daného elementu. Uloží všechny.
Jaké podporuje Scraping Camel hromadné elementy
Hromadné elementy rozlišujeme nyní dva:
- Zpětné odkazy
- Obrázky (adresy obrázků)
Jaké informace ke hromadným elementům Scraping Camel ukládá
- Stránka, URL stránky, kde se daný element nachází.
- URL, cílová URL souboru.
- Text, v případě odkazů text uvnitř odkazu, v případě obrázků parametr alt.
- HTTP kód, http kód cílové URL.
- Velikost obsahu, velikost cílového souboru. Na stránce Hromadné elementy je v KB, ve validaci v B.
- Typ obsahu, tzv mediatype. Příklad:
image/png
K čemu jsou hromadné elementy užitečné
Umožní vám získat všechny odkazy a obrázky webu. Nad nimi můžete spouštět validace. Základní validátory jsme pro vás již připravili jako systémové. Můžete tak vypsat seznamy odkazů či obrázků, které na cílové URL nejsou - vrátí kód 404.
Vlastní validátory můžete tvořit dle libosti. Můžete např. vypsat seznam obrázků, které jsou příliš velkým souborem (několik MB) a pomalu se načítají. Můžete vypsat seznam odkazů, které nemají žádný popis a uživatelé je nevidí. Můžete vypsat stránky s odkazy, které jsou přesměrovány na jinou adresu aj.
Celkově je validace hromadných elementů velice užitečná a napoví vám mnoho o stavu webu.
Náhled stránky Hromadné elementy
Suma sumárum činí novinky Scraping Camela užitečnějším při kontrole webu z pohledu SEO. Může tak nahradit např. desktopové crawlery, jako bývalo Xenu.
Nechť vám tyto novinky @group_scrapingcamel slouží dobře.
