Marine fait sa chronique !
Buzz marketing et communication online : ça bouge sur le web pour les entreprises !


18082009

Duplicate Content, qu’est-ce que c’est ?

Par • Dans la catégorie : Référencement

Beaucoup ne connaissent pas les règles du duplicate content. Beaucoup ne connaissent même pas son existence. Et beaucoup s’interrogent peut-être, surtout en lisant des articles comme celui que j’ai écrit sur Paperblog, où je parle de duplicate content et des problèmes que cela engendre sans vraiment l’expliquer. Alors aujourd’hui, nous revenons au théorique : le duplicate content, qu’est-ce que c’est et comment ça fonctionne ?

Le duplicate content : Qu’est-ce que c’est ?

Le duplicate content, c’est tout simplement un doublon, en langage moteur de recherches. En d’autres mots, un contenu retrouvé de façon identique ou quasi identique sur 2 sites différents.

Cela peut aussi être sur un même site, lorsque vos contenus sont assez courts, que vos header et footer sont similaires, que vous avez une colonne latérale, etc… Google va avoir du mal à déterminer les différences réelles. De même si vous faites l’erreur de présenter une même balise <title> ou <description> sur chaque page. Mais ce problème nous intéresse moins aujourd’hui, que celui d’un même contenu retrouvé sur 2 sites différents.

Le duplicate content : Qu’est ce que ça fait ?

Pour éviter ce genre de pratique, qui au final n’est autre que le résultat d’un vol de contenu (oui, si ton contenu se retrouve de façon identique sur un autre site… ce n’est pas le simple fruit du hasard et d’une personne qui aurait les mêmes idées que toi, c’est bel et bien que quelqu’un a fait un joli copier coller de ton article), et donc pour éviter cela, Google, entre autres, sanctionne ces pratiques en ne conservant dans ses résultats qu’un seul des 2 articles.

Alors comment choisir l’article à conserver ? C’est très simple : Google observe les données de chacun des 2 sites d’où proviennent les 2 pages identiques. Et il retiendra celui dont le Page Rank est le plus élevé. Pourquoi ? Parce qu’il considère certainement qu’un PR élevé indique un trafic important et de qualité ? Et donc un site lui-même de qualité. Qui dit qualité, dit qu’il ne s’abaisse pas à faire du duplicate content…

Et pourtant… c’est bien le problème avec PaperBlog. Ce site référence tellement d’articles dupliqués de tellement de blogs qu’il a forcément un trafic beaucoup plus élevé que n’importe lequel des petits blogs qui s’inscrit à ce service pour justement tenter de se faire connaître… Du coup, PaperBlog prend forcément le devant, du point de vue de Google, et c’est l’article du blogueur qui n’apparaît plus dans les résultats Google, alors que PaperBlog prend toute la visibilité sur le sujet…

Pourquoi le duplicate content est-il sanctionné ?

Cela pour éviter cette pratique de vol de contenu, même si au final le calcul de celui qui sera gardé tourne souvent à l’avantage du voleur…, mais aussi pour présenter des résultats toujours plus pertinents aux utilisateurs, qui n’ont en effet aucun intérêt à cliquer sur 2 liens différents pour y lire le même contenu.

Dans quelle mesure le duplicate content est-il sanctionné ?

Si Google supprime l’une des 2 pages similaires, il n’attribue cependant aucune pénalité au site concerné. Pas de blacklistage ni de perte de page rank. Soyez rassuré sur ce sujet. Il existe, certes, quelques exception mais pour des cas très particuliers.

Comment lutter correctement contre le duplicate content ?

Alors la question que me fait me poser ce sujet est simple : pourquoi Google ne regarde pas la date de publication ? Le plus ancien étant logiquement l’auteur d’origine, et donc celui qui a le droit de garder tout le bénéfice de son article… Un jour, peut-être ?

Mots clés : , , , ,

est l'auteur de cet article. Jeune diplômée, elle recherche actuellement une opportunité en web marketing / communication online.
Lui écrire | Voir tous les articles écrits par

11 avis sur le sujet »

  1. Pas de pénalité ? C’est déjà ça.

    Mais comment faire pour publier tout de même plusieurs fois le même article sans être « mal vu » par google ? Je me pose la question car je publie sur mes blogs, mais aussi sur d’autres à plus large diffusion en « exhumant » de vieux articles de qualité (selon moi 🙂 ) ET mes articles sont repris et stockés sur mon ziki/ePortFolio.

    Y a t’il des astuces pour échapper dans ce cas au Duplicate Content ? Titre différent, citation de la source ou extraction par flux RSS, qu’est-ce qui marcherait ?

    Sinon, sur les raisons de google, je rajouterai que, peut-être, google étant aussi là pour le business, il préfère une unique source pertinente qui draine beaucoup de trafic (PR élevé) qu’une source unique, peut-être original, qui en draine moins…

    Enfin, puis-je me permettre une suggestion ? pourquoi ne lierais-tu pas tes billets entre eux ? Par exemple ici un lien ancré sur paperblog vers ton billet Paperblog ? Fuyez !. Cela apporterait de la profondeur aux billets, augmenterait le nombre de pages visitées et améliorerait ton référencement google.

  2. Une suggestion : publier une partie seulement de ton article, avec un lien vers le texte original et complet ? Ou même faire un résumé un peu différent de ton article, que tu placeras ailleurs pour inciter les lecteurs à venir lire ton article ?

    Merci pour la suggestion ! Elles sont toujours bienvenues : je ne suis pas encore un pro et ne demande qu’à apprendre ! Par contre tu peux voir dans mon article lorsque je parle de Paperblog qu’un lien pointe vers l’article Paperblog justement. Peux-tu me donner plus de détails sur ta suggestion ? J’ai peur de n’avoir pas bien compris.

  3. Ah ben voila super maintenant j’ai tout compris !!!!!!!!!!!!!
    Merci Marine pour ce bel article bien résumé !

    Concernant la date de publication, Google aurait peut etre du mal à la déterminer et sur le net on peut facilement anti-dater ses publication et documents !

  4. Non, non, c’est bien ça, juste que je n’avais pas vu le lien. Donc deuxième suggestion, si tu peux, modifie le style des liens pour qu’on les reconnaissent: souligné et d’une couleur différente du texte (ici, c’est le cas, mais le bleu claire tranche peu avec le gris et la couleur de tes titres).
    Bizarrement, c’est quand on survol ton lien (donc qu’on l’a trouvé) qu’on le voit le mieux: en vert et souligné o_O

    Mais pour cela tu devras modifier ou le thème de ton blog 🙁 ou la feuille de style (CSS) s’il n’y a pas d’option spécifique à l’allure des liens dans ton espace administratif.

    Sinon, pour la republication, j’utilise déjà le principe e l’amorce que tu suggère: une intro (alléchante) et un lien, mais cela ne me suffit plus pour mon projet de remise à jour de mes vieux billets.

  5. Tu as une petite faute de frappe dans ton deuxième titre. Je ne pense pas que tu sois Contente du duplicate 😉

    Ton explication est bonne, cela dit tu peux trouver bon nombre d’exemples (je ne les ai plus en tête) ou des pages complètes de résultats comportent le même contenu (copier/coller) sans qu’aucune suppression ou pénalité ne soit infligée…

  6. @ RL :
    C’est sûr qu’on peut modifier la date mais… ça serait tout de même une solution plus « juste ».

    @ GreG :
    En fait j’ai modifié le style des liens lorsque j’ai mis mon thème en place, mais c’est vrai qui suite à ta remarque, ils ne sont peut-être pas assez visibles ! Je vais tenter d’arranger ça, au moins en les soulignants d’office, même si c’est du coup moins esthétique (avis perso).

    @ Mickael :
    Effectivement, c’est le risque d’écrire ses articles tard le soir… On laisse passer quelques erreurs ! Merci 😉 C’est maintenant corrigé !
    Merci aussi pour ton avis et témoignage, c’est vrai que le web a des règles, mais que ce n’est jamais une science juste… Puis certains savent comment contourner les règles !

  7. @Marine:
    L’esthétique est importante, ça incite et facilite la lecture, mais elle ne doit pas, à mon avis, réduire l’ergonomie. surtout lorsque l’on traite de l’info que l’on veut diffuser. Le tout est de trouver le bon compromis, jamais facile. Mais rien que le souligné est un vrai plus, les internautes ont l’habitude de l’associer aux liens… et sont même déçus quand ils tombent sur du souligné qui n’est pas un lien 🙁

    @Mickael:
    C’est vrai et c’est très énervant. On apprécie alors mieux la politique du duplicate content (DC). Ce qui serait intéressant, c’est de savoir combien de temps met google pour repérer ce DC et pour y réagir. C’est peut-être à cause de cela que certains DC passent au travers du crible.

  8. @Marine : De rien. Pour ton « déboire » avec PaperBlog comme je dis tjs :  » Les erreurs apportent plus que la réussite, mais la réussite te permet d’avoir le droit de faire des erreurs… ». Perso je vérifie tjs comment fonctionne les agrégateurs avant d’ajouter mon flux 😉

    @Greg : Très énervant, je ne sais pas trop comment GG gère ça, mais bon le plus simple est d’agir auprès du « copieur de contenu » pour lui demander de les retirer. Après tout est question de point de vue.

  9. Ce n’est pas celui qui a le PR le plus élevé, mais celui qui possède le plus de jus, c’est souvent identique, mais pas toujours. 😉

    Le contenu dupliqué peut passer dans différents cas, mais mieux vaut éviter pour un site propre/pro.

    Enfin, pour ta suggestion, ne penses-tu pas qu’on (je m’inclus) modifierait simplement la date via l’admin ou via la BDD?

  10. @ Greg :
    Finalement pas eu le temps de m’en occuper… mais j’y pense 😉

    @ Mickael :
    Maintenant, moi aussi, à « l’époque », je n’étais qu’une très jeune blogueuse débarquant dans le monde inconnu du web…

    @ Gwaradenn :
    C’est sûr que certaines tenteraient de tricher mais… comment trouver une solution juste à coup sûr ?! Celle de la date aurait au moins l’avantage d’avoir une règle juste, même si la règle peut-être contournée facilement. Là Google « pénalise » les petits blogs…

  11. […] pourquoi pas Duplicate Content, qu’est-ce que c’est ? chez Marine, une bonne intro sur le […]

Donner votre avis