Kdopak vám to kouká do dat 👻 aneb USERAGENTI

Nasadil jsem aplikaci #apps:symlink-stork na několik odkazů a koukám, kdopak to data stahuje. Počtení je to zajímavé a tak si říkám, že by mohlo být fajn se o výsledky podělit. Zkusím v příspěvcích níže představit vybrané useragenty, které jsem prozatím ulovil. Budete-li mít dotaz či vlastní úlovek, podělte se.

Co je useragent

Název toho, kdo chce stáhnout data. Obvykle je to počítačový program, který používá buď živý člověk (např. internetový prohlížeč) nebo nějaký “stroj” (např. fulltextový vyhledávač). Přesnější definici najdeš např. zde.

Příklad useragenta: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36
Takto se představí internetový prohlížeč Chrome na Windows. Všimněte si, že kromě názvu software obsahuje useragent i další informace.

Proč věnovat useragentům pozornost

Cílem aplikace Symlink Stork je umožnit vám omezit kdo bude k vašim datům mít přístup. Na to navazuje sledování, kdo (důvěrná) data skutečně stahuje. Důvěrná jsem dal do závorky úmyslně. Můžete totiž sledovat přístupy jak na skutečně interní data, např. váš neveřejný velkoobchodní ceník, ale také sledovat přístupy na soubor umístěný např. na internetových stránkách. S tím, že vás zajímá jaký useragent tento soubor stahuje. Toto sledování dělají webové servery běžně. Jen uživatel nemusí mít přístup k výsledkům.

A proč tedy věnovat useragentům pozornost? Protože vaše data jsou důvěrná. I např. data katalogu zboží vašeho e-shopu. A pokud je začne stahovat např. bot fulltextového vyhledávače Google, je dobré o tom vědět.

:robot: Useragent

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.92 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

:mag_right: GoogleBot

Crawler fulltextového vyhledávače Google. Prochází internetové stránky s cílem získávat data pro fulltextové vyhledávání Google. Pokud GoogleBot navštíví vaše data, zbystřete. Pokud se jedná o data běžně dostupná z webu, je to v pořádku. Pokud však jde o data interní, mohou se objevit ve výsledcích vyhledávání Google, což vy nemusíte chtít.

Jak najde GoogleBot vaše data

Google prochází internetové stránky. Pokud najde odkaz na jinou stránku, navštíví odkaz a cílovou stránku zpracuje. Pokud někdo umístí odkaz na vaše data veřejně např. někam na web, může přivést GoogleBota. Jediný odkaz např. na stránce webu “Ke stažení” nebo třeba v komentáři pod nějakým článkem může takto dostat vaše data do veřejných výsledků vyhledávání Google.

:information_source: Další informace

Jak vypadá GoogleBot v historii aplikace SymlinkStork

screenshot-app.mergado.com-2020.08.24-16_33_57

:m: Useragent

Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)

:books: MJ12Bot / Majestic(SEO)Bot

Služba Majestic (MajesticSEO) je dobře známá SEO specialistům. Poskytuje data o internetových stránkách, zpětných odkazech a podobně. Tato data pro ni získává software MJ12Bot. Situace je podobná jako u GoogleBota. M12Bot prohledává internet, zpracovává internetové stránky, vybírá z nich zpětné odkazy a tyto dále navštěvuje. Pokud MJ12Bot navštíví vaše veřejná data, není v tom problém. Pokud navštíví vaše důvěrná data, stojí to za pozornost. 100% důvěrná už být nemusejí.

:information_source: Další informace

Jak vypadá MJ12Bot v aplikaci :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.25-08_29_13

:blue_book: Useragent

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

:blue_book: FacebookBot

Facebook prochází internetové stránky. Třeba proto, aby uživatelům do příspěvku, kam autor vložil URL, doplnil informace z cílové internetové stránky. Toto procházení zajišťuje software facebookexternalhit (FacebokBot). V praxi jsem byl lenošný analyzovat jaké stránky přesně FacebookBot prochází a jak si procházení plánuje, nicméně v Symlink Stork vidím jeho návštěvu brzy po nasazení a na souboru, o jehož sdílení živým uživatelem pochybuji. Každopádně je facebookexternalhit bot, který prochází veřejná URL a pokud ho v historii návštěv uvidíte, znamená to, že o datech mohou vědět cizí osoby podobně, jako v případě GoogleBota či MJ12Bota.

:information_source: Další informace

Jak vypadá FacebookBot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.26-10_18_51

:red_gift_envelope: Useragent

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

:red_gift_envelope: YandexBot

Společnost Yandex bych vám představil jako “Ruský Google”. Toto přirovnání je hodně zjednodušující, protože společnost působí i mimo Rusko, jde o akciovou společnost obchodovanou i na “západních” burzách, nicméně základní představu by člověk získat mohl. Podobně jako Google poskytuje Yandex řadu služeb. Včetně fulltextového vyhledávače. Data pro něj získává software, který se může hlásit jako YandexBot. Pokud ho v historii Symlink Stork uvidíte, je situace podobná jako např. u GoogleBota - při návštěvě důvěrných dat jde o situaci vysoce pozoruhodnou. Při návštěvě dat veřejných jsou návštěvy YandexBota přirozené. Pokud působí Vaše společnost v rusky hovořících státech, může být návštěvnost z Yandexu podstatná. Pokud nikoliv, je ke zvážení, zda má mít na obsah cílových URL Yandex přístup.

:information_source: Další informace

Jak vypadá YandexBot v aplikaci :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.27-16_32_23

:garlic: Useragent

GarlikCrawler/1.2 (http://garlik.com/, crawler@garlik.com)

:garlic: GarlicCrawler

Zatímco Googlebot, MJ12bot či Facebook Bot byly příklady useragentů, kteří jsou veřejnosti známí, dnes jsem v historii Symlink Stork narazil na bota, který se sice představil jako software, informací jsem o něm však mnoho nenašel. Jeho autorem je pravděpodobně společnost Experian Ltd. která dodává řešení a data pro hodnocení rizik. Mohlo by tedy jít o její dataminigový software. IP adresy, ze které Garlik Crawler na Symlink Stork přistoupil, by měla být umístěna ve velké Británii, městě Nottingham.

Pokud Vám GarlikCrawler navštěvuje důvěrná data, doporučil bych mu v přístupu zabránit.

:alien: Useragent

Xenu Link Sleuth/1.3.8

:alien: Xenu Link Sleuth

Xenu Link Sleuth (zrkáceně Xenu) je software, který prochází web a analyzuje zpětné odkazy. To se v praxi používá např. pro vyhledání chyb. Na rozdíl od předchozích crawlerů Googlebota, MJ12Bota, YandexBota… však neběží v serverovně jako jeden centrální systém, ale na svém počítači ho jednorázově spustí konkrétní uživatel.

:alien: Proč mohu vidět useragenta Xenu v historii Symlink Stork

Useragenta v historii uvidíte proto, že tento software danou URL navštívil. Nejčastěji proto, že nějaký uživatel spustil analýzu webu nástrojem Xenu. Tím uživatelem jste mohli být vy, váš spolupracovník či dodavatel, konkurent aj.

:alien: Proč vzít záznam Xenu v historii Symlink Stork na vědomí

Pokud spustíte analýzu svého webu nástrojem Xenu a po jejím dokončení uvidíte useragenta Xenu v historii Symlink Stork, znamená to, že na danou URL vede z Vašeho webu veřejný odkaz. Pokud jde o data důvěrná, mohl někdo odkaz na stránkách zapomenout, nebo nedopatřením uvést např. do komentáře. A data jsou přístupná veřejnosti.

Xenu tak lze využít pro kontrolu, zda na důvěrná data z vašeho webu nevede veřejný odkaz.

Poznámka o nastavení Xenu

Při kontrole zda nevede na URL do Symlink Stork odkaz z vašeho webu zaškrtněte v nastavení analýzy volbu “Check external links”.
xenu

:information_source: Další informace

Jak vypadá Xenu Link Sleuth v aplikace :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.30-09_48_23

Poděkování panu Tilmanu Hausherrovi, autorovi Xenu

Software Xenu Link Sleuth vytvořil pan Tilman Hausherr a poskytl jej veřejnosti zdarma. Tisícům uživatelů tak pomohl v jejich práci, za což si zaslouží velké poděkování.

:frog: Useragent

Screaming Frog SEO Spider/10.2

:frog: Screaming Frog SEO Spider

Screaming Frog SEO Spider je v mnohém podobný předcházejícímu Xenu. Taktéž jde o desktopový software pro analýzu webu, který nárazové spustí na svém počítači živý člověk. Pokud se tento useragent objeví v historii Symlink Stork, znamená to, že je daná URL dostupná veřejným zpětným odkazem z webu.

:frog: Poznámka k verzím

Já v historii dnes odchytil Screaming Frog verze 10.2. Aktuálně nejnovější verzí je 13.2. Někteří useragenti se tedy mohou lišit různými verzemi. To se týká jak Screaming Frog SEO Spider tak i ostatních useragentů…

:information_source: Další informace

Domovská stránka Screaming Frog

Jak vypadá Screaming Frog SEO Spider v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.08.31-13_08_27

:red_circle: Useragent

Mozilla/5.0 (compatible; Pinterestbot/1.0; +http://www.pinterest.com/bot.html)

:red_circle: Pinterestbot

Pinterest je sociální síť pro sdílení obrázků. Aby obrázek do pinu stáhla, využívá software Pinterestbot. Svým způsobem bych ho přirovnal k Facebookbotovi. V historii Symlink Stork jsem ho našel, nicméně nebyl tak aktivní jako např. Googlebot či jiní SEO crawleři.

:information_source: Další informace

Jak vypadá Pinterestbot v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.01-10_34_21

:email: Useragent

Mozilla/5.0 (X11; Linux x86_64; rv:68.0) Gecko/20100101 Thunderbird/68.10.0 Lightning/68.9.0

:email: Thunedrbird

Mozilla Thunderbird je desktopový software pro psaní a příjem e-mailů. V našem přehledu jsem ho uvedl jako příklad toho, že vaše data nemusí stahovat jen webové prohlížeče či vyhledávací boti, ale i jiný software. Třeba v tomto případě jsem na symlink umístil obrázek, který se posílá v těle e-mailů. Aby ho Thunderbird mohl v těle e-mailu čtenáři zobrazit, musí ho ze symlinku stáhnout. A to je okamžik, kdy se jeho useragent ohlásí Symlink Stork.

Jak vypadá Thunderbird v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.11-14_37_28

Dosud jsem psal o useragentech, kterými se hlásí boti. Dnes se podívejme na useragenty webových prohlížečů, které používají živí lidé. Z hisotrie Symlink Stork jsem namátkou vybral:

Mozilla/5.0 (Linux; Android 5.1.1; HUAWEI SCL-L01 Build/HuaweiSCL-L01) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.93 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 5.1.1; Lenovo A6020a40) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 8.0.0; F8331) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.101 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 9; MAR-LX1A) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.136 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 9; Nokia 3.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.136 Mobile Safari/537.36

Mozilla/5.0 (Linux; Android 10; SAMSUNG SM-A405FN) AppleWebKit/537.36 (KHTML, like Gecko) SamsungBrowser/12.1 Chrome/79.0.3945.136 Mobile Safari/537.36

Mozilla/5.0 (Linux; U; Android 9; cs-cz; Redmi Note 8T Build/PKQ1.190616.001) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/71.0.3578.141 Mobile Safari/537.36 XiaoMi/MiuiBrowser/12.4.1-g

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; Trident/5.0)

Mozilla/5.0 (iPhone; CPU iPhone OS 13_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) CriOS/85.0.4183.92 Mobile/15E148 Safari/604.1

Mozilla/5.0 (iPhone; CPU iPhone OS 13_7 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.2 Mobile/15E148 Safari/604.1

…a další

Co obsahuje useragent

  • Mozilla/5.0 tohle je dědictví historie. Označovalo kompatibilitu s Mozillou. Dnes tímto začínají skoro všichni useragenti prohlížečů.
  • Operační systém - Windows, Android, produkty Apple, Linux atp.
  • Technologické jádro prohlížeče, např. WebKit, Gecko aj.
  • Prohlížeč
  • Případné další informace

Z useragenta vyčtete řadu informací i návštěvníkovi cílové URL. Pamatujte však, že tyto informace lze podvrhnout. V SymlinkStork je můžete zkombinovat s informací o IP adrese, ze které daný useragent na cílovou stránku přišel.

Další informace

:rainbow: Useragent

Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko Firefox/11.0 (via ggpht.com GoogleImageProxy)

:rainbow: Gmail (Google Image Proxy)

Google Image Proxy je součást populárního webmailu od společnosti Google - Gmail. Jejím prostřednictvím načítá Gmail obrázky do zpráv z cílových URL. Podobně jako předchozího Thunderbirdu tedy potkáte tohoto useragenta v historii symlinků na které odkazujete z :email: e-mailových zpráv.

Jak vypadá Gmail v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.16-10_53_34

Useragent

Mozilla/4.0 (compatible; ms-office; MSOffice 16)

Outlook 16

V historii symlinku na obrázek posílaný e-mailem jsem dnes objevil useragenta Mozilla/4.0 (compatible; ms-office; MSOffice 16). Jedná se o kolegu, nebo spíše konkurenta, výše popsaného Thunderbirdu. Desktopového e-mailového klienta pro Windows Outlook. Pokud se vám objeví v historii Symlink Stork, je závěr podobný jako právě u Thunderbirdu. Pokud jde o odkaz na obsah posílaný e-mailem, je to v pořádku.

Jak vypadá Outlook 16 v historii :bird: Symlink Stork

screenshot-app.mergado.com-2020.09.22-09_15_04(1)

Funkce | Audit XML | Agentury | Nápověda | Blog | Forum | Kontakt