Kdopak vám to kouká do dat 👻 aneb USERAGENTI

Nasadil jsem aplikaci Symlink Stork na několik odkazů a koukám, kdopak to data stahuje. Počtení je to zajímavé a tak si říkám, že by mohlo být fajn se o výsledky podělit. Zkusím v příspěvcích níže představit vybrané useragenty, které jsem prozatím ulovil. Budete-li mít dotaz či vlastní úlovek, podělte se.

Co je useragent

Název toho, kdo chce stáhnout data. Obvykle je to počítačový program, který používá buď živý člověk (např. internetový prohlížeč) nebo nějaký “stroj” (např. fulltextový vyhledávač). Přesnější definici najdeš např. zde.

Příklad useragenta: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36
Takto se představí internetový prohlížeč Chrome na Windows. Všimněte si, že kromě názvu software obsahuje useragent i další informace.

Proč věnovat useragentům pozornost

Cílem aplikace Symlink Stork je umožnit vám omezit kdo bude k vašim datům mít přístup. Na to navazuje sledování, kdo (důvěrná) data skutečně stahuje. Důvěrná jsem dal do závorky úmyslně. Můžete totiž sledovat přístupy jak na skutečně interní data, např. váš neveřejný velkoobchodní ceník, ale také sledovat přístupy na soubor umístěný např. na internetových stránkách. S tím, že vás zajímá jaký useragent tento soubor stahuje. Toto sledování dělají webové servery běžně. Jen uživatel nemusí mít přístup k výsledkům.

A proč tedy věnovat useragentům pozornost? Protože vaše data jsou důvěrná. I např. data katalogu zboží vašeho e-shopu. A pokud je začne stahovat např. bot fulltextového vyhledávače Google, je dobré o tom vědět.

:robot: Useragent

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.92 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

:mag_right: GoogleBot

Crawler fulltextového vyhledávače Google. Prochází internetové stránky s cílem získávat data pro fulltextové vyhledávání Google. Pokud GoogleBot navštíví vaše data, zbystřete. Pokud se jedná o data běžně dostupná z webu, je to v pořádku. Pokud však jde o data interní, mohou se objevit ve výsledcích vyhledávání Google, což vy nemusíte chtít.

Jak najde GoogleBot vaše data

Google prochází internetové stránky. Pokud najde odkaz na jinou stránku, navštíví odkaz a cílovou stránku zpracuje. Pokud někdo umístí odkaz na vaše data veřejně např. někam na web, může přivést GoogleBota. Jediný odkaz např. na stránce webu “Ke stažení” nebo třeba v komentáři pod nějakým článkem může takto dostat vaše data do veřejných výsledků vyhledávání Google.

:information_source: Další informace

Jak vypadá GoogleBot v historii aplikace SymlinkStork

:m: Useragent

Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)

:books: MJ12Bot / Majestic(SEO)Bot

Služba Majestic (MajesticSEO) je dobře známá SEO specialistům. Poskytuje data o internetových stránkách, zpětných odkazech a podobně. Tato data pro ni získává software MJ12Bot. Situace je podobná jako u GoogleBota. M12Bot prohledává internet, zpracovává internetové stránky, vybírá z nich zpětné odkazy a tyto dále navštěvuje. Pokud MJ12Bot navštíví vaše veřejná data, není v tom problém. Pokud navštíví vaše důvěrná data, stojí to za pozornost. 100% důvěrná už být nemusejí.

:information_source: Další informace

Jak vypadá MJ12Bot v aplikaci :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.25-08_29_13

:blue_book: Useragent

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

:blue_book: FacebookBot

Facebook prochází internetové stránky. Třeba proto, aby uživatelům do příspěvku, kam autor vložil URL, doplnil informace z cílové internetové stránky. Toto procházení zajišťuje software facebookexternalhit (FacebokBot). V praxi jsem byl lenošný analyzovat jaké stránky přesně FacebookBot prochází a jak si procházení plánuje, nicméně v Symlink Stork vidím jeho návštěvu brzy po nasazení a na souboru, o jehož sdílení živým uživatelem pochybuji. Každopádně je facebookexternalhit bot, který prochází veřejná URL a pokud ho v historii návštěv uvidíte, znamená to, že o datech mohou vědět cizí osoby podobně, jako v případě GoogleBota či MJ12Bota.

:information_source: Další informace

Jak vypadá FacebookBot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.26-10_18_51

:red_gift_envelope: Useragent

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

:red_gift_envelope: YandexBot

Společnost Yandex bych vám představil jako “Ruský Google”. Toto přirovnání je hodně zjednodušující, protože společnost působí i mimo Rusko, jde o akciovou společnost obchodovanou i na “západních” burzách, nicméně základní představu by člověk získat mohl. Podobně jako Google poskytuje Yandex řadu služeb. Včetně fulltextového vyhledávače. Data pro něj získává software, který se může hlásit jako YandexBot. Pokud ho v historii Symlink Stork uvidíte, je situace podobná jako např. u GoogleBota - při návštěvě důvěrných dat jde o situaci vysoce pozoruhodnou. Při návštěvě dat veřejných jsou návštěvy YandexBota přirozené. Pokud působí Vaše společnost v rusky hovořících státech, může být návštěvnost z Yandexu podstatná. Pokud nikoliv, je ke zvážení, zda má mít na obsah cílových URL Yandex přístup.

:information_source: Další informace

Jak vypadá YandexBot v aplikaci :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.27-16_32_23

:garlic: Useragent

GarlikCrawler/1.2 (http://garlik.com/, crawler@garlik.com)

:garlic: GarlicCrawler

Zatímco Googlebot, MJ12bot či Facebook Bot byly příklady useragentů, kteří jsou veřejnosti známí, dnes jsem v historii Symlink Stork narazil na bota, který se sice představil jako software, informací jsem o něm však mnoho nenašel. Jeho autorem je pravděpodobně společnost Experian Ltd. která dodává řešení a data pro hodnocení rizik. Mohlo by tedy jít o její dataminigový software. IP adresy, ze které Garlik Crawler na Symlink Stork přistoupil, by měla být umístěna ve velké Británii, městě Nottingham.

Pokud Vám GarlikCrawler navštěvuje důvěrná data, doporučil bych mu v přístupu zabránit.

:alien: Useragent

Xenu Link Sleuth/1.3.8

:alien: Xenu Link Sleuth

Xenu Link Sleuth (zrkáceně Xenu) je software, který prochází web a analyzuje zpětné odkazy. To se v praxi používá např. pro vyhledání chyb. Na rozdíl od předchozích crawlerů Googlebota, MJ12Bota, YandexBota… však neběží v serverovně jako jeden centrální systém, ale na svém počítači ho jednorázově spustí konkrétní uživatel.

:alien: Proč mohu vidět useragenta Xenu v historii Symlink Stork

Useragenta v historii uvidíte proto, že tento software danou URL navštívil. Nejčastěji proto, že nějaký uživatel spustil analýzu webu nástrojem Xenu. Tím uživatelem jste mohli být vy, váš spolupracovník či dodavatel, konkurent aj.

:alien: Proč vzít záznam Xenu v historii Symlink Stork na vědomí

Pokud spustíte analýzu svého webu nástrojem Xenu a po jejím dokončení uvidíte useragenta Xenu v historii Symlink Stork, znamená to, že na danou URL vede z Vašeho webu veřejný odkaz. Pokud jde o data důvěrná, mohl někdo odkaz na stránkách zapomenout, nebo nedopatřením uvést např. do komentáře. A data jsou přístupná veřejnosti.

Xenu tak lze využít pro kontrolu, zda na důvěrná data z vašeho webu nevede veřejný odkaz.

Poznámka o nastavení Xenu

Při kontrole zda nevede na URL do Symlink Stork odkaz z vašeho webu zaškrtněte v nastavení analýzy volbu “Check external links”.
xenu

:information_source: Další informace

Jak vypadá Xenu Link Sleuth v aplikace :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.30-09_48_23

Poděkování panu Tilmanu Hausherrovi, autorovi Xenu

Software Xenu Link Sleuth vytvořil pan Tilman Hausherr a poskytl jej veřejnosti zdarma. Tisícům uživatelů tak pomohl v jejich práci, za což si zaslouží velké poděkování.

:frog: Useragent

Screaming Frog SEO Spider/10.2

:frog: Screaming Frog SEO Spider

Screaming Frog SEO Spider je v mnohém podobný předcházejícímu Xenu. Taktéž jde o desktopový software pro analýzu webu, který nárazové spustí na svém počítači živý člověk. Pokud se tento useragent objeví v historii Symlink Stork, znamená to, že je daná URL dostupná veřejným zpětným odkazem z webu.

:frog: Poznámka k verzím

Já v historii dnes odchytil Screaming Frog verze 10.2. Aktuálně nejnovější verzí je 13.2. Někteří useragenti se tedy mohou lišit různými verzemi. To se týká jak Screaming Frog SEO Spider tak i ostatních useragentů…

:information_source: Další informace

Domovská stránka Screaming Frog

Jak vypadá Screaming Frog SEO Spider v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.31-13_08_27

:red_circle: Useragent

Mozilla/5.0 (compatible; Pinterestbot/1.0; +http://www.pinterest.com/bot.html)

:red_circle: Pinterestbot

Pinterest je sociální síť pro sdílení obrázků. Aby obrázek do pinu stáhla, využívá software Pinterestbot. Svým způsobem bych ho přirovnal k Facebookbotovi. V historii Symlink Stork jsem ho našel, nicméně nebyl tak aktivní jako např. Googlebot či jiní SEO crawleři.

:information_source: Další informace

Jak vypadá Pinterestbot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.01-10_34_21

:email: Useragent

Mozilla/5.0 (X11; Linux x86_64; rv:68.0) Gecko/20100101 Thunderbird/68.10.0 Lightning/68.9.0

:email: Thunedrbird

Mozilla Thunderbird je desktopový software pro psaní a příjem e-mailů. V našem přehledu jsem ho uvedl jako příklad toho, že vaše data nemusí stahovat jen webové prohlížeče či vyhledávací boti, ale i jiný software. Třeba v tomto případě jsem na symlink umístil obrázek, který se posílá v těle e-mailů. Aby ho Thunderbird mohl v těle e-mailu čtenáři zobrazit, musí ho ze symlinku stáhnout. A to je okamžik, kdy se jeho useragent ohlásí Symlink Stork.

Jak vypadá Thunderbird v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.11-14_37_28

Dosud jsem psal o useragentech, kterými se hlásí boti. Dnes se podívejme na useragenty webových prohlížečů, které používají živí lidé. Z hisotrie Symlink Stork jsem namátkou vybral:

Mozilla/5.0 (Linux; Android 5.1.1; HUAWEI SCL-L01 Build/HuaweiSCL-L01) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.93 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 5.1.1; Lenovo A6020a40) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 8.0.0; F8331) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.101 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 9; MAR-LX1A) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.136 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 9; Nokia 3.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.136 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 10; SAMSUNG SM-A405FN) AppleWebKit/537.36 (KHTML, like Gecko) SamsungBrowser/12.1 Chrome/79.0.3945.136 Mobile Safari/537.36

Mozilla/5.0 (Linux; U; Android 9; cs-cz; Redmi Note 8T Build/PKQ1.190616.001) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/71.0.3578.141 Mobile Safari/537.36 XiaoMi/MiuiBrowser/12.4.1-g

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; Trident/5.0)

Mozilla/5.0 (iPhone; CPU iPhone OS 13_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) CriOS/85.0.4183.92 Mobile/15E148 Safari/604.1

Mozilla/5.0 (iPhone; CPU iPhone OS 13_7 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.2 Mobile/15E148 Safari/604.1

…a další

Co obsahuje useragent

  • Mozilla/5.0 tohle je dědictví historie. Označovalo kompatibilitu s Mozillou. Dnes tímto začínají skoro všichni useragenti prohlížečů.
  • Operační systém - Windows, Android, produkty Apple, Linux atp.
  • Technologické jádro prohlížeče, např. WebKit, Gecko aj.
  • Prohlížeč
  • Případné další informace

Z useragenta vyčtete řadu informací i návštěvníkovi cílové URL. Pamatujte však, že tyto informace lze podvrhnout. V SymlinkStork je můžete zkombinovat s informací o IP adrese, ze které daný useragent na cílovou stránku přišel.

Další informace

:rainbow: Useragent

Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko Firefox/11.0 (via ggpht.com GoogleImageProxy)

:rainbow: Gmail (Google Image Proxy)

Google Image Proxy je součást populárního webmailu od společnosti Google - Gmail. Jejím prostřednictvím načítá Gmail obrázky do zpráv z cílových URL. Podobně jako předchozího Thunderbirdu tedy potkáte tohoto useragenta v historii symlinků na které odkazujete z :email: e-mailových zpráv.

Jak vypadá Gmail v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.16-10_53_34

Useragent

Mozilla/4.0 (compatible; ms-office; MSOffice 16)

Outlook 16

V historii symlinku na obrázek posílaný e-mailem jsem dnes objevil useragenta Mozilla/4.0 (compatible; ms-office; MSOffice 16). Jedná se o kolegu, nebo spíše konkurenta, výše popsaného Thunderbirdu. Desktopového e-mailového klienta pro Windows Outlook. Pokud se vám objeví v historii Symlink Stork, je závěr podobný jako právě u Thunderbirdu. Pokud jde o odkaz na obsah posílaný e-mailem, je to v pořádku.

Jak vypadá Outlook 16 v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.22-09_15_04(1)

:watch: Useragent

CronRunner/1.0 (+https://store.mergado.com/detail/cronrunner/)

:watch: Cron Runner

Pro spouštění plánovaných úloh v aplikaci najdete na trhu celou řadu různých software. Mám na mysli webové nástroje, které pingají nějakou adresu, nikoliv spouštění úloh na straně serveru. Opakovanému spouštění úloh se říká cron, případně se můžete setkat s pojmy jako cron job a podobně. Běžný uživatel se s cronem setká např. v situaci, kdy potřebuje, aby v jeho CMS (webu) byl pravidelně spouštěn nějaký proces - např. pro nějakou údržbu.

Vzhledem k tomu, že webcron spouští pravidelně určitou URL, můžete se s ním setkat i v historii Symlink Stork. Tenhle příklad je aplikace :watch: Cron Runner a jak vidíte v URL domovské stránky, najdete ho v Mergado Store. Ze známých alternativ mne napadá např. EasyCron, nicméně jich na trhu je celá řada. Tyto nástroje by se vám v historii Symlink Stork měly představit tak, že dokážete rozpoznat o jakého useragenta jde. A nejlépe si také vzpomenou (zjistit), kdo a proč pingání webcornem dané URL nastavil.

Jak vypadá Cron Runner v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.10.04-09_51_17

:dollar: Useragent

e.ventures Investment Crawler (eventures.vc)

:dollar: E.ventures

Dnes jsem v historii symlinků našel bota, který vypadá jako čmuchal investiční společnosti. Přišel na web z datacentra v :us: Kalifornii, navštívil jednu stránku a zase “odešel”. Z veřejně dostupných informací se zdá, že by provozovatelem mohla být společnost E.ventures, která má v portfoliu řadu technologických brandů. Inu i takové čmuchaly můžete na svých URL načapat :wink:

Jak vypadá bot :dollar: E-ventures v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.10.14-09_11_06

1 Like

:convenience_store: Useragent

AdsBot-Google (+http://www.google.com/adsbot.html)

:convenience_store: Google AdsBot

Že reklamní systém Google Ads kontroluje kvalitu cílových stránek reklam nemusím marketingově vzdělanému čtenáři připomínat. Aby tuto kontrolu mohl Google udělat, má k tomu speciálního bota. Jmenuje se AdsBot a protože navštěvuje stránky webu, vy ho můžete ulovit do historie Symlink Stork. Bot je neškodný. Jeho výskyt na důvěrných adresách je znakem, že důvěrné již nejsou :wink:

Uvedený bot se zaměřuje na desktopovou verzi internetových stránek. Google má další boty, specializované např. na mobilní web.

:convenience_store: Další informace

Jak vypadá Google AdsBot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.10.18-21_42_00

:orange_square: :blue_square: :brown_square: :green_square: Useragent

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

:orange_square: :blue_square: :brown_square: :green_square: Bingbot

Fulltextový vyhledávač Bing bychom mohli označit za “kolegu”, u nás, známějšího vyhledávače Google. Tento konkurenční vyhledávač provozuje společnost Microsoft. I Bing vyhledává v datech získaných z internetu crawlováním webových stránek. Bot, který toto crawlování zajišťuje se jmenuje Bingbot. Spatříte-li Bingbota v historii Symlink Stork, jsou závěry obdobní jako u GoogleBota - bot je neškodný. Pokud se na symlink dostane, znamená to, že cílový obsah již nemusí být důvěrný :wink:

:orange_square: :blue_square: :brown_square: :green_square: Další informace o Bingbotovi

  • Na webu provozovatele včetně představení jiných crawlerů z rodiny Bing & Microsoft.

Jak vypadá Bingbot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.10.19-20_26_04

:red_square: :dog: Useragent

Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)

:red_square: :dog: SeznamBot

SeznamBot je bot fulltextového vyhledávače Seznam.cz. Prochází internetové stránky a stahuje obsah, který následně fulltextový vyhledávač zpracuje a čerpá z nich pro výsledky vyhledávání. SeznamBot se řadí do rodiny botů fulltextových vyhledávačů, vedle Bingbota, YandexBota či GoogleBota. Pokud jej uvidíte v historii Symlink Stork, platí obdobné závěry - bot je neškodný a jeho přítomnost značí, že cílový obsah je veřejný, nikoliv důvěrný.

:red_square: :dog: Další informace o SeznamBotovi

Jak vypadá SyznamBot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.10.19-20_25_07

:blue_square: :m: Useragent

Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)

:blue_square: :m: DotBot, Open Site Explorer, Link Explorer, MOZcom

DotBot je :robot: bot, který prochází internetové stránky a stahuje data pro marketingový nástroj. Autorem jsou tvůrci známé internetové stránky Moz.com. Zde se věnovali především SEO a DotBot plnil daty nástroj Open Site Explorer. Jak šel čas, Open Site Explorer rebrandovali na Link Explorer a tvůrci přidali další nástroje, včetně přístupu k datům přes API. Každopádně DotBot dodnes brázdí internet. MOZcom bych zařadil do podobně kategorie jako Majesticcom a jejich MJ12Bota o kterém jsem psal výše.

:blue_square: :m: Další informace o DotBotovi

Jak vypadá DotBot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.10.19-20_25_07(1)

:ghost::green_square: Useragent

ltx71 - (http://ltx71.com/)

:ghost::green_square: LTX71 bot

Dnes jsem v historii Symlink Stork odhalil tohoto výtečníka. Sám sobě říká LXT71 bot. Nakolik důvěryhodný návštěvník to je by mohla napovědět stránka na kterou odkazuje:

Dále se podívejme do informací o doméně LTX71:

screenshot-www.whois.com-2020.11.02-20_03_57

Mnoho jsme se toho nedozvěděli. IP adresa vede do datacentra veřejného Google Cloudu. Provozovatel si přál zůstat v anonymitě. Na webu tvrdí, že cílem bota je vyhledání bezpečnostních hrozeb, což autorovi věřit můžeme a nemusíme. Alespoň, že by měl LTX71 bot podporovat syntaxi robots.txt, tedy můžete mu zkusit přístup na web zakázat. Zda bude zákaz respektovat jsem nezkoušel. Na druhou stranu měl LTX71 bot pořád dost slušnosti, aby se řádně představil a nemaskoval např. za běžného uživatele.

Důvod, proč byste měli nechat LTX71 bota crawlovat vlastní web či důvěrné soubory nevidím.

Jak vypadá LTX71 bot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.11.02-19_22_05