Robots.txt para WordPress

Autor: Armonth | El lunes 15 de octubre del 2007 @ 08:25.

De WordPress, contenido duplicado, posicionamiento/SEO y temas relacionados ya he hablado anteriormente (ver relacionados) pero por correo me han preguntado si tengo un robots.txt ya hecho y si bien puedo contestar "el de SigT" aprovecho para publicar uno comentado listo para copiar, pegar y, si hace falta, adaptar.

#   
# robots.txt para tu blog en WordPress.   
#   
# Usar bajo propia responsabilidad, que nos conocemos }:)   
# http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html   
#

# Primero el contenido adjunto.

User-Agent: *   
Allow: /wp-content/uploads/   
Disallow: /wp-content/plugins/   
Disallow: /wp-content/themes/   
Disallow: /wp-includes/   
Disallow: /wp-admin/

# También podemos desindexar todo lo que empiece   
# por wp-. Es lo mismo que los Disallow de arriba pero   
# incluye cosas como wp-rss.php

Disallow: /wp-

#   
# Sitemap permitido, búsquedas no.   
#

Sitemap: http://tu-web/sitemap.xml   
Disallow: /?s=   
Disallow: /search

#   
# Permitimos el feed general para Google Blogsearch.   
#   
# Impedimos que permalink/feed/ sea indexado ya que el   
# feed con los comentarios suele posicionarse en lugar de   
# la entrada y desorienta a los usuarios.   
#   
# Lo mismo con URLs terminadas en /trackback/ que sólo   
# sirven como Trackback URI (y son contenido duplicado).   
#

Allow: /feed/$   
Disallow: /feed   
Disallow: /comments/feed   
Disallow: /*/feed/$   
Disallow: /*/feed/rss/$   
Disallow: /*/trackback/$   
Disallow: /*/*/feed/$   
Disallow: /*/*/feed/rss/$   
Disallow: /*/*/trackback/$   
Disallow: /*/*/*/feed/$   
Disallow: /*/*/*/feed/rss/$   
Disallow: /*/*/*/trackback/$

#   
# A partir de aquí es opcional pero recomendado.   
#

# Lista de bots que suelen respetar el robots.txt pero rara   
# vez hacen un buen uso del sitio y abusan bastante...   
# Añadir al gusto del consumidor...

User-agent: MSIECrawler   
Disallow: /

User-agent: WebCopier   
Disallow: /

User-agent: HTTrack   
Disallow: /

User-agent: Microsoft.URL.Control   
Disallow: /

User-agent: libwww   
Disallow: /

#   
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen   
# idas de pinza, toca decirles que reduzcan la marcha.   
# El valor es en segundos y podéis dejarlo bajo e ir   
# subiendo hasta el punto óptimo.   
#

User-agent: noxtrumbot   
Crawl-delay: 50

User-agent: msnbot   
Crawl-delay: 30

User-agent: Slurp   
Crawl-delay: 10

De la lista de bots, he dejado los más molestos por experiencia personal pero ante ciertos abusos, no dudéis: cortad de raíz. Las páginas están hechas para las personas y no para que te las saturen los robots, aunque los datos digan lo contrario.

Los valores que le he puesto a Noxtrum, MSNbot y Slurp los dejo así ya que los dos primeros suelen ser los que más se les va la pinza. También toca mencionar que si se quiere usar un "urllist.txt" (un Sitemap usado por Yahoo! hasta hace poco y que es equivalente al sitemap.xml pero sólo contiene URLs) se le puede añadir una segunda línea Sitemap: sin problemas.

El resto del contenido duplicado (etiquetas, categorías, archivos anuales / mensuales / diarios, etcétera) es más efectivo añadirlo con PHP junto a meta robots y noindex,follow.

Relacionados:

Comentarios