Lo básico del robots.txt

Autor: Armonth | El sábado 11 de agosto del 2007 @ 20:42.

Manz ha escrito un artículo titulado Robots.txt: todo lo que deberia saber que recomiendo si todavía no dominas su uso. A lo que Manz tocaría añadir unas pequeñas notas:

Si en algún momento impides la indexación de las imágenes (por error o similar) y con ello te quedas sin ninguna imagen en Google Images hay que tener en cuenta que aunque vuelvas a permitir la indexación los efectos no se verán hasta la próxima gran actualización de imágenes (usualmente 3 meses).
Un error en el robots.txt puede desindexar páginas no esperadas, especialmente cuando se usan los comodines, comprobad en Google Sitemaps vuestro robots.txt para ver que páginas filtra. De lo contrario os puede llegar a salir muy caro.
Si de contenido duplicado y WordPress se trata, seguramente os interese un código de robots.txt que comente para filtrar las páginas duplicadas que son:
- El /feed/ con los últimos comentarios o los comentarios de una entrada.
- Todos los ficheros que empiezan por wp- salvo el contenido de wp-content/uploads.
- Las URLs terminadas en /trackback/ que son una una copia de las entradas pero usadas para enviar trackbacks.
- Las búsquedas (?s= y /search) también las filtra pero el feed RSS2 con las entradas no para que se indexe el sitio en Google Blogsearch.

Por último añadir que cuánto más complejo es un sitio más difícil es saber qué restringir o que no y más fácilmente se cae en errores ya que los comodines se vuelven imprescindibles. Una vez más: mucho cuidado con los cambios que se hacen en el robots.txt.

Lo básico del robots.txt

Comentarios

Categorías