El problema del contenido duplicado y cómo resolverlo

Un problema que vemos en casi todos los sitios web es el contenido duplicado. Los sitios web más grandes con cientos de páginas son especialmente propensos a esto. Pero, ¿qué califica exactamente como contenido duplicado? ¿Por qué tener contenido duplicado conduce a problemas y cómo podemos evitarlos? Cubriremos todo eso y más dentro de este artículo..

¿Qué es el contenido duplicado??

El contenido duplicado es exactamente lo que crees que es: dos o más fragmentos de contenido que son idénticos, la única diferencia es la URL.

Google ve cada URL como una página separada. Debido a esto, consideraría las siguientes URL como páginas completamente diferentes:

Página original con camisas rojas: http://website.com/shirts/red
La misma página, pero ordenada por precio: http://website.com/shirts/red?order=asc

El problema aquí es que básicamente estamos viendo la misma página con el mismo contenido. La única diferencia es que el contenido de la última URL está en un orden diferente. Google ve esto como contenido duplicado.

¿Por qué el contenido duplicado es malo??

Contenido duplicado confunde los motores de búsqueda. ¿Por qué? Porque les resulta difícil decidir qué página es la más relevante para una consulta de búsqueda.

Los motores de búsqueda nunca mostrarán dos partes de contenido idénticas en los SERPs. Esto se hace para garantizar la mejor calidad de búsqueda; Ver el mismo contenido dos veces no es muy interesante para el usuario..

Otro problema es el poder de clasificación de páginas duplicadas. En lugar de tener una sola página con mucha autoridad, tiene varias páginas con un rendimiento subóptimo y diluido. Esto podría costarle mucho tráfico orgánico.

Cómo se crea contenido duplicado

El contenido duplicado se puede crear deliberadamente o por accidente. Sin embargo, el resultado es el mismo..

Un ejemplo de contenido duplicado deliberado es la versión impresa de una página. Es efectivamente la misma página con el mismo contenido, por lo que cuando se indexa esta versión impresa, hay un problema con el contenido duplicado..

Sin embargo, hay muchas situaciones en las que el contenido duplicado se crea involuntariamente. Puede haber varias causas, tales como:

ID de sesión
Opciones de clasificación
Códigos de afiliados
Dominios
...

ID de sesión

Un ID de sesión es una variable, una cadena de números y / o letras generados aleatoriamente y se utiliza para realizar un seguimiento de los visitantes. A menudo se utilizan para carritos de compras, por ejemplo:

http://website.com/?sessionid=5649612

El problema con los identificadores de sesión es obvio: pueden crear cientos, tal vez incluso miles de duplicados. El almacenamiento de ID de sesión en cookies puede resolver este problema, pero si confía en esta opción, no se olvide de la ley de cookies de la UE.

Opciones de clasificación

Cuando la gente piensa en las opciones de clasificación, por lo general piensan en los catálogos de productos de la tienda web donde los usuarios pueden ordenar por precio, fecha, etc. Pero las funciones de clasificación también se encuentran en otros sitios web. La siguiente URL utiliza una función típica de clasificación de blog:

http://website.com/category?sort=asc

La URL con la opción de clasificación y el original son básicamente la misma página. Es el mismo contenido, solo ordenado de manera diferente..

Códigos de Afiliados

Códigos de afiliados están apareciendo en toda la web. Se utilizan para identificar al remitente, que a su vez es recompensado por traer un nuevo visitante. Un código de afiliado puede verse así, por ejemplo:

http://website.com/product?ref=name

Una vez más, este código puede crear un duplicado de la página original..

Dominios

Incluso algo tan simple como un nombre de dominio a veces puede ser problemático. Echa un vistazo a las siguientes URL:

http://website.com
http://www.website.com

Los motores de búsqueda han recorrido un largo camino, pero en ocasiones todavía se equivocan. Es probable que ambas URL apunten a la página de inicio, pero como ambas se ven diferentes, a veces se las ve como páginas diferentes..

Cómo identificar contenido duplicado

Hemos hablado sobre cómo se crea el contenido duplicado, pero cómo puede identificar los problemas de contenido duplicado en su sitio?

La forma más fácil de hacerlo es a través de Herramientas para webmasters de Google. Inicie sesión en su cuenta y vaya a Optimización> Mejoras HTML. Aquí encontrará una lista de títulos duplicados (que probablemente sea contenido duplicado).

Herramientas para webmasters de Google

Alternativamente puede ingresar el sitio: comando -search en la barra de URL para buscar páginas de un dominio específico (por ejemplo, sitio: webdesign.tutsplus.com). Este método es muy útil si sospecha que una página en particular tiene varios duplicados. Use el comando del sitio y pegue un par de oraciones de la página sospechosa. Si recibe un mensaje de Google que dice "Para mostrarle los resultados más relevantes, hemos omitido algunas entradas ...", es probable que tenga contenido duplicado..

Finalmente, también podrías usar rastreadores de sitios. Se puede utilizar software como Xenu y Screaming Frog para recopilar la información necesaria. Analice los títulos de las páginas en el informe de rastreo y verifique si hay duplicados.

Resolver problemas de contenido duplicado

Como dice el dicho: "toda enfermedad tiene cura". Afortunadamente, hay varias formas de solucionar problemas de contenido duplicado:

Redireccionamiento 301

Una forma sencilla de evitar que el contenido duplicado se indexe es una redirección 301. De esta manera, el usuario y los motores de búsqueda son redirigidos del duplicado al original. Como resultado, todos los enlaces se envían a la página original..

Se implementa una redirección 301 en los servidores Apache agregando reglas al archivo .htaccess de su servidor. Tenga en cuenta que este método 'borra' la copia. Si no desea deshacerse de las páginas duplicadas, debe utilizar el siguiente método.

Rel = canonical

Hay otra manera de decirle a los motores de búsqueda sobre contenido duplicado; la rel = "canónico" etiqueta. Este código debe ser implementado en el de una página web.

Digamos que tenemos la página B que es un duplicado de la página A. Si queremos informar a los motores de búsqueda de esto, pondríamos el siguiente código en el marcado de la página B:

Este código indica que la página actual es en realidad una copia de la URL mencionada anteriormente. Después de implementarlo, la mayoría de los enlaces se transferirán a la página original y, por lo tanto, mejorarán el poder de clasificación de esa página. Contrariamente a la redirección 301, las páginas duplicadas seguirán siendo accesibles.

Etiqueta de Meta Robots

Ya hemos discutido la metaetiqueta de los robots en detalle durante un tutorial anterior. Al agregar una etiqueta de meta robots con el parámetro "noindex", puede evitar que la página duplicada se indexe.

Reescritura de URL

Esta es una solución más avanzada. Es más difícil de implementar si tiene una comprensión limitada del código, pero puede ser útil en varias ocasiones.

Como se mencionó anteriormente, el nombre de dominio a menudo puede causar problemas de contenido duplicado (versión www vs no www). Puede resolver este problema agregando una regla de reescritura de URL a su archivo htaccess (otra cosa que ya hemos cubierto antes en Webdesigntuts +). Elija su dominio preferido (www o non-www) y vuelva a escribir las URL en el dominio especificado.

Otro problema del que hemos hablado es el uso de ID de sesión. La misma URL con un ID de sesión diferente adjunto se puede ver como contenido duplicado. Una vez más, el archivo htaccess puede usarse para deshabilitar estos parámetros. Lea Desactivar los ID de sesión pasados a través de la URL por Constantin Bejenaru para aprender cómo hacerlo.

Herramientas para webmasters de Google

En la sección anterior hablamos sobre la reescritura automática de URL para los nombres de dominio. Una forma más fácil de hacerlo es a través de las Herramientas para webmasters de Google. Simplemente inicie sesión en su cuenta, vaya a Configuración, haga clic en Configuración y establezca una dominio preferido.

Dominio preferido de Google Webmaster

Si estas usando parámetros dinámicos de URL, Puedes decirle a Google cómo manejarlos. De esta manera usted puede decir qué parámetros deben ser ignorados. Esto a menudo puede resolver muchos problemas de contenido duplicado. Visite Google Webmaster Tools y vaya a Configuración> Parámetros de URL. Puede encontrar más información en el Soporte de Google, pero asegúrese de usar esta función solo si sabe cómo funcionan los parámetros, de lo contrario puede bloquear páginas sin darse cuenta.

Orientación por idioma

Este problema está relacionado con el contenido duplicado, pero hay algunas diferencias.

Digamos que una compañía que vende productos en América del Norte tiene dos sitios web: company.us y company.ca. El primero está dirigido a los Estados Unidos, el segundo a Canadá. En ambos sitios web encontramos contenido que es similar porque los webmasters no querían volver a escribir varias páginas de texto.

Es posible que la versión de EE. UU. Supere a la versión canadiense (incluso en Google.ca) porque tiene más autoridad. ¿Cómo podemos solucionar este problema de segmentación??

Hay una solución simple: la rel = "suplente" hreflang = "x" anotación.

Si usamos nuestro ejemplo anterior, necesitamos agregar el siguiente código en el sección del dominio .us:

En el dominio .ca necesitamos colocar este código:

En esencia, le está diciendo a Google que hay una versión alternativa (o duplicada) en otro idioma. El atributo hreflang utiliza ISO 639-1 para identificar el idioma. Opcionalmente puede agregar la región en formato ISO 3166-1.

Observaciones finales

Es mejor prevenir que curar ... La vinculación interna constante puede impedir la creación de contenido duplicado. Si tiene http://www.website.com como dominio preferido, no apunte sus enlaces internos a la versión que no sea de www. El mismo consejo se aplica a los enlaces entrantes. Si enlaza con su propio sitio desde otro dominio, use una estructura de enlace consistente.

No intente crear contenido duplicado intencionalmente copiando grandes porciones de texto de otros sitios web. Es probable que Google lo descubra y que las consecuencias no sean tan agradables:

En los raros casos en que Google percibe que el contenido duplicado puede mostrarse con la intención de manipular nuestras clasificaciones y engañar a nuestros usuarios ... la clasificación del sitio puede verse afectada o la página puede eliminarse por completo del índice de Google.

Conclusión

El contenido duplicado es algo que se ve en casi todos los sitios. Puede tener varias causas, ya sean accidentales o no..

A menos que desee evitar el acceso desde la página a través de un redireccionamiento 301, es mejor usar la anotación rel = canonical. Alternativamente, puede usar la etiqueta meta robots o la reescritura automática de URL. Las Herramientas para webmasters de Google también ofrecen algunas formas de prevenir el contenido duplicado.

Finalmente, lo mejor es ser consistente en tu vinculación. Los enlaces internos y los enlaces entrantes deben aparecer igual.

Diseño web