Introducción al problema del contenido duplicado

Autor: Armonth | El domingo 20 de agosto del 2006 @ 19:09.

Los motores de búsqueda vistos desde fuera parecen un negocio redondo: las ganancias de Google en el segundo trimestre del 2006 superan los 700 millones de dolares netos, Yahoo es más modesto pero el aumento de ganancias en el último periodo del 2005 ronda un 47%.

Pero con algo de conocimiento podemos intuir que para mantener el modelo se requiere de una infraestructura imponente, pensad en el despliegue de recursos que se hace:

Necesitan una araña constantemente revisando y archivando el contenido de TODOS los sitios (ancho de banda, CPU, disco duro).
Darle una valoración a lo indexado, pasándole filtros, algoritmos, etcétera (más consumo de cpu y seguramente no poco).
El consumo de CPU, disco duro y ancho de banda del propio buscador al ser visitado por sus usuarios.
Gastos asociados cómo consumo eléctrico, servidores, nuevo hardware, peering de tráfico y sin meternos en gastos típicos de empresa tales como personal, ingenieros, abogados para afrontar los pleitos, impuestos, etc.

A lo que quiero llegar es que, en la práctica indexar en un buscador una página cuesta dinero por lo tanto tener que indexar contenido duplicado aumenta los costes. Por ello, buscadores como Google cada vez más se están poniendo las pilas para evitar el contenido duplicado.

Y dado que ellos ofrecen muchos servicios (te traen visitas, te pagan esas visitas al insertar publicidad, etcétera) la forma más básica que tienen de sugerir (y a veces incluso imponer) es reducir tu posición en los resultados de búsquedas (SERPs) o, en casos más graves, la desaparición por completo en dichos SERPs.

"Antiguamente" (en términos de Internet apenas unos años) únicamente se consideraba contenido duplicado a tener muchas páginas iguales bajo el mismo dominio. Actualmente afecta tanto nuestro dominio como a otros. También puede verse la lucha contra el contenido duplicado como una lucha contra las infracciones de Copyright (que no de Copyleft) pero está claro que el motivo económico está mucho más presente.

En el fondo no es más que un juego del gato y el ratón: si Google quisiera que en lugar de HTML4 / XHTML 1.0 se usase XML+XSL sólo debería darle más importancia en los filtros de su algoritmo y anunciarlo. A los pocos días la mayoría de SEOs hubieran migrado corriendo a la caza de subir unos pocos puestos en los SERPs.

No sería raro que en un futuro se enfocasen por la rapidez de carga y entonces que empiecen a temblar Flash y JAVA (ya que mal usados son perfectos para generar código mal optimizado y cosas recargadas).

Problemas que pueden ocasionar el contenido duplicado

Perdida de link-juice. Si un artículo tuyo tiene cien enlaces, es mejor que sea una página "fuerte" con cien enlaces que no que estos estén separados en varias páginas iguales con el mismo contenido pero distinta URL.
Que aparezca la página no deseada en los SERPs. Ante dos páginas iguales a efectos de los buscadores no se indexarán las dos si no que lo hará una mientras que la otra será ignorada. A efectos de la ley de Murphy la indexada será la que no te interese. Mención especial a WordPress en este aspecto donde suelen aparecer enlaces hacía el feed de los comentarios (blogsite/permalink/feed/) en lugar de la entrada (blogsite/permalink).

Consejos (Que no conejos)

Evita el problema de las URL canónicas.

El principal problema es que los servidores responden lo mismo desde www.sitio.com que desde sitio.com por lo que son vistos como dos webs distintas. Esto se soluciona redireccionando la versión con www. a la sin www. (o a la inversa, a vuestro gusto) por ejemplo sigt.net redirecciona a www.sigt.net por lo que buscadores como Google sólo ven una versión.
No hagas copias en el mismo dominio, tendrás un índice más pequeño pero más variado.

Por ejemplo en WordPress es habitual que cada entrada tenga su Trackback URI que redirecciona a la entrada original pero es visto por los buscadores cómo dos direcciones distintas, añadeles el atributo rel="nofollow". También puedes aplicar la medida a los "Feed de está conversación" o a una hipotetica "versión para imprimir".
Los agregadores RSS, en otro subdominio: Los agregadores RSS son una fuente interesante de conocimiento, pero en la práctica si muestran páginas HTML no son otra cosa que contenido duplicado, es mejor mantenerlos en un dominio/subdominio aparte, quién sabe si en el futuro se pondrán más duros los buscadores: es mejor mantenerlos separarlos para que no afecten a tu sitio principal.
Vigila las páginas iguales pero con ID distinto: Suele ser habitual en especial en los foros que alguien vea una conversación y copie la URL en otro sitio pero con su identificador de usuario o también que seas tu el que añade un ID distinto a cada visita para monitorizarlas, en la práctica puedes tener cientos de copias iguales indexadas. Una solución es restringirlo mediante robots.txt.

Bueno, esto se está haciendo largo para ser una introducción, en otro momento continuaré con más entradas sobre el tema, en particular el asunto sobre el contenido duplicado y WordPress merecen una entrada solamente para ello ;)

Introducción al problema del contenido duplicado

Problemas que pueden ocasionar el contenido duplicado

Consejos (Que no conejos)

Comentarios

Categorías