A robots.txt protokoll az általános szabvány a keresőrobotok számára definiált feltérképezési direktívák meghatározására.
Robots.txt-ben használt definíciók:
- user-agent: a robot kliens amelynek az azt követő sorokbam a direktívákat definiáljuk
(Google crawlerek user-agentjei) - allow: engedélyezett path
- disallow: tiltott path
- sitemap: sitemap elérési címe
A Google részletes specifikációját érdemes áttekinteni robots.txt beállítások előtt és a példákat.
Gyakori félreértés a webmesterek részéről, hogy a robots.txt-ben beállított tiltás megakadályozza a vonatkozó oldalak találati listás megjelenését.
Robots.txt disallow direktíva csak a feltérképezést tiltja.
A Google előszeretettel jelenít meg olyan url-eket is a találati listán, amelyeknek a feltérképezését a weboldal üzemeltetői robots.txt-ben megtiltották (ilyen esetben jelzi, hogy robots.txt-ben tiltott oldalról van szó)
Amennyiben a kereső indexében és a találati listán való megjelenés megakadályozása a cél, meta robots noindex direktíva alkalmazása szükséges.
Ajánlott oldalak:
- Robotto – robots.txt fájl változásait követi, emailben értesít változás esetén. 5 domainig még fizetni sem kell a hasznos kis eszköz szolgáltatásaiért.
- robotstxt.org – robots.txt szabvány specifikáció