Le terme « contenu dupliqué » désigne une information présente à plusieurs endroits en ligne. Un « endroit » est une adresse URL . Par conséquent, si un contenu identique apparaît à plusieurs adresses web, il s’agit du même contenu.
Bien que cela ne constitue pas une pénalité à proprement parler, la duplication de contenu peut parfois influencer le classement d'un site web dans les moteurs de recherche. Lorsque de nombreux contenus sont « relativement similaires », selon la définition de Google, et présents à plusieurs endroits sur Internet, il peut être difficile pour les moteurs de recherche de déterminer quelle version est la plus pertinente pour une requête donnée.
Comment surviennent les problèmes de contenu dupliqué ?
Le plus souvent, les propriétaires de sites web ne produisent pas intentionnellement de contenu dupliqué. Cependant, cela ne signifie pas que ce type de contenu n'existe pas. Selon certaines estimations, jusqu'à 29 % du contenu présent sur le web est dupliqué !
Examinons quelques-unes des méthodes les plus courantes par lesquelles un même contenu pourrait être produit à l'insu de l'auteur :
variantes d'URL
Les paramètres d'URL, comme ceux utilisés pour le suivi des clics et les codes d'analyse, peuvent parfois engendrer des problèmes de contenu dupliqué. Ce problème peut provenir non seulement des paramètres eux-mêmes, mais aussi de leur ordre d'apparition dans l'URL.
De même, les identifiants de session constituent l'une des causes les plus fréquentes de duplication de contenu. Cela se produit lorsqu'un identifiant de session unique est attribué à chaque utilisateur visitant un site web et enregistré dans l'URL. Cet identifiant est attribué individuellement à chaque utilisateur.
Il est possible de générer du contenu dupliqué en utilisant des identifiants de session ou des paramètres.
Lorsque de nombreuses copies d'une page sont indexées, comme cela peut se produire lors de l'utilisation de versions imprimables de documents, cela peut entraîner des problèmes de duplication de contenu.
Ce qu'il faut retenir, c'est que, lorsque cela est possible, il est généralement préférable d'éviter d'ajouter des paramètres d'URL ou différentes versions d'URL (les informations contenues dans ces conteneurs peuvent généralement être transmises par des scripts).
Contenu qui a été récupéré ou dupliqué
Le contenu ne se limite pas aux articles de blog et aux contenus journalistiques ; il comprend également des pages d'information sur les produits. La pratique consistant à republier le contenu de votre blog sur d'autres sites web est sans doute la source la plus connue de contenu dupliqué. Cependant, une autre source fréquente de contenu identique pour les sites de commerce électronique est celle des informations produits. Lorsque de nombreux sites web proposent les mêmes produits et utilisent tous les descriptions du fabricant, ce même contenu se retrouve diffusé sur Internet à plusieurs endroits.
Comment résoudre les problèmes liés au contenu dupliqué ?
La résolution des difficultés liées aux documents dupliqués se résume toujours au même concept fondamental : identifier quelles copies constituent la « bonne » version de l’information.
Il est essentiel de canoniser les informations pour les moteurs de recherche si elles figurent sur un site web et sont accessibles via plusieurs URL. Examinons les trois approches les plus courantes : la redirection 301 vers l’URL correcte, l’attribut rel=canonical et l’outil de gestion des paramètres disponible dans Google Search Console.
Consultez Seahawk Media pour plus d'articles de ce type.