Die robots.txt steuert den Zugriff der Suchmaschinen auf die Seite. Mit der robots.txt wird einerseits der Suchmaschine mitgeteilt wo sie suchen soll und wo sie Informationen zur Seite finden und andererseits eingeschränkt welche Seiten oder Dateien nicht indexiert werden dürfen.
Hier ein Beispiel einer robots.txt
User-agent: Googlebot
# Unterbinden der Indexierung aller Dateien mit diesen Endungen
Disallow: /*.cgi$
Disallow: /*.css$
Disallow: /*.gif$
Disallow: /*.gz$
Disallow: /*.inc$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.js$
Disallow: /*.php$
Disallow: /*.php*
Disallow: /*.png$
Disallow: /*.tpl$
Disallow: /*.wmv$
Disallow: /*.xhtml$
# Zugriff auf spezielle Module verbieten, um Duplicate Content zu vermeiden
Disallow: /*?mact=Printing*$
Disallow: /*?mact=Search*$
Disallow: /*?mact=News*$
# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Disallow: /
Allow: /uploads/images
# Archivierung der Seite unterbinden
User-agent: ia_archiver
Disallow: /
# duggmirror unterbinden
User-agent: duggmirror
Disallow: /