Robots.txt

A robots.txt protokoll az általános szabvány a keresőrobotok számára definiált feltérképezési direktívák meghatározására.

Robots.txt-ben használt definíciók:

  • user-agent: a robot kliens amelynek az azt követő sorokbam a direktívákat definiáljuk
    (Google crawlerek user-agentjei)
  • allow: engedélyezett path
  • disallow: tiltott path
  • sitemap: sitemap elérési címe

A Google részletes specifikációját érdemes áttekinteni robots.txt beállítások előtt és a példákat.

Gyakori félreértés a webmesterek részéről, hogy a robots.txt-ben beállított tiltás megakadályozza a vonatkozó oldalak találati listás megjelenését.
Robots.txt disallow direktíva csak a feltérképezést tiltja.
A Google előszeretettel jelenít meg olyan url-eket is a találati listán, amelyeknek a feltérképezését a weboldal üzemeltetői robots.txt-ben megtiltották (ilyen esetben jelzi, hogy robots.txt-ben tiltott oldalról van szó)
Amennyiben a kereső indexében és a találati listán való megjelenés megakadályozása a cél, meta robots noindex direktíva alkalmazása szükséges.

Ajánlott oldalak:

  • Robotto – robots.txt fájl változásait követi, emailben értesít változás esetén. 5 domainig még fizetni sem kell a hasznos kis eszköz szolgáltatásaiért.
  • robotstxt.org – robots.txt szabvány specifikáció