Ako Google vyhľadávanie nachádza webové stránky

Dnes odhaľujeme proces sťahovania webu

Ako Google vyhľadávanie nachádza a získava webové stránky – proces, ktorý sa bežne nazýva crawling. Vysvetlíme, čo je a čo robí googlebot, a potom trochu poviem o tom, prečo sú mapy stránok (sitemap) také užitočné pri pridaní na vašu webovú stránku.

Čo je crawling?

Crawling je proces nachádzania nových alebo aktualizovaných webových stránok pomocou automatizovaných programov nazývaných crawlery, ktoré ich následne sťahujú, aby boli prehľadávateľné.

Prvým krokom v procese sťahovania je takzvané objavovanie URL. Predtým, ako môže Google zobraziť webovú stránku vo výsledkoch vyhľadávania, musí vedieť, že stránka skutočne existuje. Google neustále hľadá nové a aktualizované stránky. Avšak, s biliónmi URL na internete niektoré nikdy nebudú objavené.

Ako Google objavuje nové stránky

Nové stránky sú zvyčajne objavené, keď Google sleduje odkaz alebo URL – presnejšie, zo známej stránky na novú stránku. Napríklad z hlavnej stránky, ako sú kategórie, na novú stránku.

Väčšina nových URL, ktoré Google objaví, pochádza z iných známych stránok, ktoré Google predtým prechádzal. Môžete si predstaviť nový web s rôznymi kategóriami stránok, ktoré potom odkazujú na jednotlivé články. Google môže objaviť väčšinu verejne publikovaných článkov tým, že občas znovu navštívi stránku kategórie a extrahuje URL, ktoré vedú k článkom.

googel crawlovanie

Googlebot – hlavný crawler Google

Crawling vykonáva crawler – softvér, ktorý prehľadáva internet, sťahuje webové stránky a extrahuje odkazy, ktoré môže potom znovu stiahnuť. Je to veľmi podobné prehliadaču, ktorý je kontrolovaný botom namiesto človeka.

Hlavný crawler Google sa nazýva googlebot. Googlebot používa algoritmy na určenie, ktoré stránky má prehľadávať, ako často a koľko stránok má stiahnuť z každej stránky. Algoritmy sú procesy alebo, ak chcete, súbory pravidiel kombinované na dosiahnutie konkrétnej funkcionality v rámci počítačových programov.

Googlebot je tiež naprogramovaný tak, aby sa vyhýbal príliš rýchlemu prehľadávaniu stránky, aby nedošlo k jej preťaženiu. Rýchlosť prehľadávania je jedinečná pre každú stránku a je z veľkej časti založená na tom, ako rýchlo stránka reaguje na jednotlivé požiadavky googlebota, kvalite obsahu vo všeobecnosti a prípadných chybách servera, ako aj ďalších signáloch.

Ktoré stránky googlebot prehľadáva

Googlebot neprehľadáva každú URL, ktorú objaví. Niektoré stránky môžu byť na weboch, ktoré nespĺňajú požadovaný prah kvality na indexáciu, čo si povieme viac neskôr. Iné URL môžu byť zakázané pre prehľadávanie, zatiaľ čo ďalšie nemusia byť prístupné bez prihlásenia na stránku.

Googlebot bude prechádzať iba verejne prístupné URL. Ak niečo umiestnite za prihlasovaciu stránku, googlebot to nemôže prehľadávať.

Sťahovanie a vykresľovanie stránok

Keď googlebot nájde vaše URL, ďalším krokom je sťahovanie (fetching) a potom vykresľovanie (rendering) stránky hosťovanej pod touto konkrétnou URL. Proces sťahovania je len sťahovanie údajov, ktoré sú poskytnuté z určitej URL.

Vykresľovanie je zaujímavejšie. Je to v podstate to isté, čo robí váš prehliadač. Služba vykresľovania vezme stránku stiahnutú z URL, ktorá je zvyčajne zmesou súborov obsahujúcich HTML, CSS a JavaScript, a premení ju na vizuálnu reprezentáciu tejto stránky. Pri tom spustí akýkoľvek JavaScript, ktorý nájde, pomocou najnovšej verzie prehliadača Chrome.

Vykresľovanie je dôležité, pretože webové stránky sa často spoliehajú na JavaScript, aby priniesli obsah na stránku a urobili ju živšou, a bez vykresľovania by Google nevidel tento obsah.

Význam máp stránok (sitemap)

Mapy stránok sú zbierkou URL na stránky na vašom webe a sú veľkou pomocou, ak chcete, aby váš web objavil Google. Najpopulárnejším formátom je súbor XML, ktorý vám umožňuje poskytnúť nielen URL vašich stránok, ale aj niektoré ďalšie metadáta o nich.

Mapy stránok nie sú absolútne povinné, ale určite môžu pomôcť Google a tiež iným vyhľadávačom nájsť váš obsah. Ak vás to zaujalo, spolupracujte so svojím poskytovateľom webových stránok alebo vývojárom, aby ste sa uistili, že vaša webová stránka automaticky generuje súbory mapy stránok.

Aj keď by ste mohli manuálne pridávať všetky tie milióny URL do svojej mapy stránok, je to veľa práce a je to zbytočný zdroj chýb. Nechajte systém správy obsahu vašej stránky vytvoriť súbory mapy stránok za vás.

Teraz, keď viete, ako Google nachádza a sťahuje webové stránky, ako Google dokáže sprístupniť vaše stránky prostredníctvom vyhľadávania? O tom sa budem venovať v našej ďalšej epizóde o indexovaní.

Obrázky: AI, Zdroj informácii: Google Search Central

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *