robots.txt
Die robots.txt Datei ist für die Steuerung verantwortlich, welche Webseiten und Unterseiten die Webcrawler und deren Bots lesen darf und welche nicht. Dabei kann auch gesteuert werden, dass bspw. der Bing Crawler die Webseite nicht lesen darf, dafür aber der Bot von Google. Dies ist insbesondere wichtig für die verschiedenen Suchmaschinen und die Search Engine Optimization (SEO), welche diese Datei zur Indexierung nutzen.
Dabei befindet sich die robots.txt im Stammverzeichnis der Webseite (your-domain.com/robots.txt
). Wurde sie woanders abgelegt, kann sie von den Crawlern nicht gefunden werden. Außerdem ist für jede (Haupt-) Domain auch nur eine Robots-Datei möglich.
ATTENTION
Achtung!
Wichtig zu beachten ist, dass die robots.txt Datei nur als Richtlinie beachtet wird. Sie kann also von dem Bot auch ignoriert werden. Um sich definitiv vor einer Indexierung zu schützen, kann ein Passwort genutzt werden.