Pas envie de lire ? Lancez l'audio pour écouter l'article !
Voiced by Amazon Polly

La désindexation est une pratique SEO qui permet d’indiquer aux moteurs de recherche la suppression ou la déconsidération de certaines pages. Il peut s’agir des contenus jugés de faible qualité (par manque de texte) ou ceux considérés comme privés ne devant pas figurer dans les résultats des moteurs de recherche. Pour faire simple, elle permet de retirer de Google toutes les pages inutiles à l’internaute. La mise en œuvre de ce procédé rend fiable et qualitatif les pages de votre site internet aux yeux de Google.

Desindexation-2

Plus de 10 millions de contenus sont quotidiennement publiés sur le web, ce qui ne cesse de croître de jour en jour. 

Pour se démarquer de cette masse, il s’avère important de revoir sa stratégie SEO qui inclut plusieurs sortes de techniques dont la désindexation.

Alors :

Alexandre Marotel | Twaino | Agence SEO

Alexandre MAROTEL

CEO à Twaino | Agence SEO

Voilà ce que j'offre à mes nouveaux membres

1. Liste : 144+ blogs pour publier des articles invités
2. Un Calculateur de compétition SEO
3. Vidéo exclusive : Comment passer de 0 à 1000 visiteurs ?
4. Outil : Audit SEO immédiat

  • Désindexation : De quoi s’agit-il ?
  • Quelles sont les différentes méthodes de désindexation ?
  • Comment et quand Google désindexe  les pages web ?

Chapitre 1 : Désindexation, de quoi s’agit-il ?

Pour créer, il est parfois nécessaire de détruire, dit-on ! Le désir de voir sa page figurée à la tête des résultats des moteurs de recherches, pousse les référenceurs à effectuer des ajustements valables. 

Mais bien avant que l’on aborde la désindexation proprement dit, il est important que vous ayez une idée de la notion de l’indexation.

1.1. Qu’est-ce que l’indexation SEO ?

Historiquement désigné comme « la phase d’inscription d’un site web », l’indexation Google est l’ensemble des procédés par lesquels un robot de Google (spiders) élabore, traite, puis classe les contenus et pages d’un site internet pour les présenter ensuite sur une page de résultats

Sans cette intervention, les sites recherchés par les internautes ne seront pas affichés.

votre expert SEO

En effet, l’indexation est une partie du référencement naturel visant à mettre dans l’index d’un moteur de recherche les pages d’un site internet. 

Elle fait partie de l’un des prérequis pour le positionnement équitable d’un site dans les pages de résultats d’un moteur de recherche. 

1.2. L’indexation par Google peut prendre du temps !

Un site internet n’est pas immédiatement indexé par Google une fois en ligne. 

En effet, il peut arriver que les robots chargés de l’exploration des sites et pages ne soient pas encore au niveau de votre site, ce qui prend souvent de temps.

Alors, pour accélérer les choses, vous pouvez faciliter l’indexation par les moteurs de recherche et les robots en : 

  • Corrigeant les facteurs qui bloquent l’indexation par Google ;
  • Demandant l’inspection d’un URL par la Google Search Console ;
  • Effectuant une vérification quotidienne des rapports d’exploitation existants sur la Search Console afin de déceler et corriger les éventuels problèmes ;
  • Créant de nouveaux contenus qui prouvent que votre site s’enrichit ;
  • Structurant chaque page de sorte à favoriser la navigation des robots.

Ainsi, vous devez mettre en place certaines stratégies pour que votre site web soit indexé efficacement par les bots.

1.3. Que signifie la Désindexation ?

Depuis l’apparition de Panda qui est un filtre algorithmique qui sanctionne les sites web ayant proposé des contenus de faible qualité, il est devenu très important de présenter aux moteurs de recherche seulement les pages ayant une certaine valeur aux internautes.

Bien que la désindexation était déjà utilisée,  ce sera les réglementations pénalisantes de Google en matière de contenu de qualité qui vont amener beaucoup à découvrir un nouveau compartiment du monde SEO, la désindexation des contenus de faible qualité.

Cette expression créée en contre partie du mot « indexation », représente l’ensemble des procédures mises en œuvre pour supprimer de l’index des moteurs de recherche certaines pages web afin de présenter celles qui sont de meilleure qualité. 

Pour satisfaire convenablement ses internautes, Google pousse les référenceurs à produire uniquement les contenus qui apportent une réelle valeur ajoutée.

Ce qui implique parfois, de supprimer les contenus non-concluants.

Parmi ces derniers, on peut distinguer :

1.3.1. Les pages de résultats de moteur interne 

Il est normal qu’un moteur de recherche interne s’impose lorsqu’un site web commence à s’élargir en termes de nombre de pages et de contenus valides.

Ces pages sont à désindexer, pas parce qu’elles contiennent du spam, mais qu’elles génèrent énormément de pages, ce qui risque de gêner le budget Crawl

Conséquence, Google pourrait passer son temps à crawler les pages de résultats internes et pourrait délaisser les pages de contenu du site. 

Qu'est ce que le SEO ?

En effet, les pages de résultats de moteur interne sont les pages de faible qualité en termes de contenu.

Pour plus d’éclaircissement, suivez cette vidéo YouTube sur :

https://youtu.be/k-MmQS98bCE 

1.3.2. Les pages en duplicate content 

Le duplicate content désigne les pages qui se retrouvent en double sur le site internet. En effet, il peut s’agir des pages comportant des contenus fortement similaires ou identiques. 

Le moteur de recherches se charge alors de filtrer ses résultats afin de sélectionner la version qu’ils considèrent comme étant l’originale :

Canibalisation de mots cles

Les autres pages ne sont pas forcément désindexées et peuvent toutefois conserver leur PageRank ainsi que  leur index sur les moteurs de recherche. 

Même si les moteurs de recherche les ignorent généralement, il s’agit de pages qui sont explorées par les bots. Si vous avez beaucoup de ces pages, elles risquent de consommer une bonne partie de votre budget crawl. 

Notez qu’on distingue trois sortes de duplicate content :

  • Les pages totalement identiques

C’est l’exemple des sites miroirs. Ici, le moteur de recherche Google, sélectionne en fonction des PageRank. Le site miroir est le fait de reproduire textuellement un autre site web. C’est une copie exacte d’un autre site, alors les pages qui sont issues du site miroir sont des copies parfaites des pages d’un autre site web. 

Ils ont pour rôle d’admettre la diffusion d’une même information à plusieurs endroits puis de mieux répartir le trafic généré sur le site original.

sites-miroirs

  • Les pages similaires, mais qui comportent des balises TITLE et DESCRIPTION différentes

Dans ce cas de duplicate content, toutes les pages originales seront indexées et bien positionnées au détriment de celles qui ne le sont pas. Celles qui ne sont pas originales vont beaucoup moins performer dans les pages de résultats (SERP). 

  • Les pages différentes, mais qui comportent les balises TITLE et DESCRIPTION similaires

Ce sont les balises identiques que comportent ces pages qui les rendent similaires. Dans le pire des cas, il est même possible que le contenu soit nonindexé par Google.

Afin d’éviter cette situation, il s’avère nécessaire que toutes les pages de votre site internet soient composées de balises TITLE et DESCRIPTION différentes

Ingredients titre viral

Voici quelques astuces qui pourront vous permettre d’identifier le duplicate content :

  • Faire une recherche sur Google avec la syntaxe “…”: c’est une méthode très simple, car elle consiste à vérifier si des phrases sont répétées sur plusieurs pages de votre site ou sur le web. Pour avoir un retour satisfaisant, soyez spécifique dans vos recherches. Consultez mon article sur les 26 opérateurs de Google.
  • Se servir des outils spécialisés : Ces outils sont des sites dont la spécificité est de détecter les contenus dupliqués. Nous avons : Screaming Frog, Raven Tools, Siteliner (rapide et facile à utiliser, il suffit juste d’indiquer l’URL de la page puis l’outil se charge de la détection des contenus dupliqués).

1.3.3. Les formulaires non-conforme

Les contenus de faible qualité peuvent concerner aussi certains formulaires. 

Il existe en premier lieu :

  • Les formulaires qui dirigent vers un contenu déjà disponible sur une autre page indexée.
  • Les formulaires qui ramènent à des pages qui n’exposent pas forcément des contenus. Nous avons comme exemples, les cas d’achat sur un site de e-commerce et de formulaire de connexion à une zone membre.

1.3.4. Les pages qui proposent des contenus spinné (répété)

Le content spinning désigne une technique qui permet de réécrire de plusieurs fois un contenu afin d’obtenir différents textes similaires qui parlent du même sujet. 

Ce procédé, qui a été élaboré par des spécialistes, permet de faire en sorte que le rédacteur ne rédige qu’un seul texte. 

Ceci, permettrait au rédacteur d’obtenir plusieurs autres textes de différentes formulations, mais ayant tous le même sens.

Content spinning

Ajouter au travail du rédacteur, il faut aussi intégrer l’utilisation du logiciel spinning pour la production automatique de texte. 

Cependant, quand le content spinning est mal élaboré par le rédacteur, il peut se détériorer et devenir un texte spinné ou un spun d’une mauvaise qualité. 

Ceci devient alors une désorientation pour les moteurs de recherche et une expérience décevante pour les lecteurs. C’est pourquoi il faut désindexer ces genres de contenus.

1.3.5. Les pages issues de l’importation d’un terme démo

Ce sont des pages créées automatiquement au cours de l’importation du terme démo. Des pages inutiles qu’il convient de désindexer. 

Outre les 05 types de contenus précités à désindexer, nous pouvons rajouter :

  • Les PDF qui proposent des contenus similaires à une page HTML ;
  • Les contenus saisonniers, les pages obsolètes, les services anciens qui ne sont plus proposés ;
  • Tout ce qui représente de la pré-prod ainsi que les informations confidentielles.

Les contenus qui n’apportent pas une valeur ajoutée effective doivent être désindexés. 

Chapitre 2 : Les méthodes et techniques de désindexation

La désindexation peut être effectuée suivant plusieurs techniques. Ces dernières varient en fonction de votre désir ou non à garder disponible des contenus que vous souhaitez rendre accessible aux lecteurs. Si vous voulez retirer ou supprimer les pages de l’index Google, vous aurez à entreprendre des actions spécifiques.

Comment creer et modifier un utilisateur sur wordpress ?

Pour éviter toute confusion, il est important de comprendre la distinction entre interdiction de crawl à Google et désindexation. 

En effet, ajouter une commande ‘’disallow’’ dans robot.txt n’a pas pour but de désindexer les pages, mais plutôt pour éviter que Google crawle les pages. Cette option de robots.txt ne sert pas à désindexer les pages.

Les techniques de désindexation que je vais vous présenter sont toutes efficaces. Il est donc inutile de vouloir utiliser toutes les techniques au même moment :

2.1. Utilisation de la balise meta robots

La balise meta robots est située entre les balises <head></head>. Elle permet d’indiquer les directives d’indexation d’un contenu du site. 

En ce qui concerne la non-indexation on peut distinguer deux cas :

  • Pour désindexer les contenus, tout en gardant toujours accessibles les liens qu’ils contiennent. Ceci est recommandé lorsque l’on souhaite désindexer un contenu sans supprimer ses liens.   

<!DOCTYPE html>

<html><head>

<meta name= »robots » content= »noindex » />

(…)

</head>

<body>(…)</body>

</html>

  • Pour désindexer les pages, tout en empêchant que les liens soient suivis :

<meta name= »robots » content= »noindex, nofollow »>

L’étape suivante est de créer un sitemap de désindexation, le soumettre à Google par le robots.txt suivant la directive « sitemap » en plus de l’URL entière d’accès au site grâce à la SEARCH CONSOLE.

2.2. Utilisation de la commande X-Robots-Tag : Noindex

Cette méthode est utilisée pour désindexer des fichiers ou des pages sans que leurs codes sources ne soient modifiés :

  • Désindexation des PDF :

<Files ~ « .pdf$ »>

Header set X-Robots-Tag « noindex, nofollow »

</Files>

  • Désindexation des images et fichiers :

<Files ~ « .(png|jpe ?g|gif)$ »>

 Header set X-Robots-Tag « noindex »

</Files>ū

Il est important de vous rappeler dans tous les cas, que vous ne devez pas utiliser deux méthodes à la fois. Cela rendra inefficace votre désindexation. Pour plus d’informations, consultez : qu’est-ce que le fichier robots.txt et comment l’utiliser?

2.3. Désindexer des pages inutiles

Pour désindexer une quantité de pages inutiles rapidement, il faut :

  • Fournir un code HTTP 410 ou HTTP 404 sur les pages supprimées. Après, il faut patienter que Google prenne en compte la suppression de la page.

Page d erreur 404

  • Générer un sitemap de désindexation dans lequel on retrouve les URL anciennes effacées qui renvoient à une 404 ou une 410.

2.4. Désindexer des pages au détriment des nouvelles qui sont plus informatives.

Voici comment procéder, si vous pensez désindexer des pages, parce que d’autres sont plus pertinentes. 

  • Élaborer des redirections 301 des pages jugées moins pertinentes vers les nouvelles. La redirection 301 est recommandée spécialement dans le cas où, les pages jugées moins pertinentes sont sujet de backlinks. Ce qui favorise l’optimisation des pages et réduit la perte du linkjuice.
  • Pour que Google prenne en compte plus rapidement ces 301, il est recommandé  de créer un sitemap dans lequel l’on retrouve les URL redirigeant vers les nouvelles pages et le soumettre par le robots.txt ou un compte SEARCH console.

Outre le fait de vouloir désindexer des pages soi-même, il arrive de voir ses pages se faire désindexer par Google sans ordre quelconque.

Chapitre 3 : Comme se fait la désindexation par Google

Vous avez fourni un effort considérable pour voir votre site internet au sommet des pages de résultats des moteurs de recherche.

Cependant, après toutes les tentatives de recherche, impossible de retrouver votre site internet. De quoi être confus ! Il va falloir que vous sachiez d’abord ce qui aurait causé un tel désagrément. 

En effet, la mission pour laquelle Google fonctionne est énoncée comme suit: « Organisation des informations de part le monde entier afin de les rendre disponibles et utiles« . 

La firme entend proposer à ses utilisateurs les informations les plus fiables

Recherche google proposer les informations les plus pertinentes et les plus fiables disponibles

Pour réussir, Google s’évertue à : 

  • Constamment ajuster son algorithme de recherche ;
  • Constamment assurer que les résultats de recherche soient de meilleures qualités à travers les données d’évaluation collectées à plusieurs niveaux dont ses évaluateurs.

Alors, on comprend bien pourquoi le géant n’hésite pas à sanctionner certaines pratiques qu’il considère comme nuisibles à ses utilisateurs.

Voici les pratiques qui sont pour la plupart du Black hat et qui peuvent faire en sorte que votre site soit désindexé par Google.

3.1. La technique du cloaking

Le cloaking est une méthode Black Hat qui permet d’optimiser les positions des sites dans les moteurs de recherche. Cette pratique consiste à présenter un contenu au moteur de recherche qui est différent de celui présenté aux internautes

Un vrai système de camouflage. 

CLOACKING-2

Par exemple, faire paraître votre site comme un site qui partage les critiques de célébrité, mais qui renvoient discrètement et de manière secrète à des contenus d’étendu érotiques (pornographiques). 

Le camouflage est exécuté en publiant un contenu venant d’un agent d’utilisation ou même d’une adresse IP. Ce faisant, si un robot crawler analyse le système, la version propre du site est affichée. 

Mais si c’est un chercheur humain qui a été détecté, la réelle version du site est affichée

cloaking-a-boon-or-a-bane-

Ajouter, à ceci le masquage peut également se substituer à : 

  • Des images qui sont camouflées par d’autres images, et qui sont différentes de celles qui ont été diffusées ;
  • Des sites internet montrant un certain contenu à Google, mais qui limite l’accès à l’internaute ;

Ne font pas partie de ces sites, les sites web dont l’accès au contenu nécessite une inscription ou une connexion.

Google applique deux sortes de sanction pour le cloaking :

  • La sanction qui n’affecte que partiellement votre site ;
  • La sanction qui affecte l’intégralité de votre site internet.

3.2. Le spamming

Encore appelé contenu indésirable, les contenus sans valeur qui s’affiche pour des fins publicitaires

Google a déclaré que ces contenus qui suivent, seront purement désindexés. 

Le SPAM

On a :

  • Les envois de requête automatique à Google ;
  • Les conceptions des pages avec des contenus malveillants comme : les virus, le phishing, ou des logiciels à vice ;
  • Effectuer de l’affiliation sans valeur ajoutée suffisante ;
  • Les liens cachés ;
  • La participation à des schémas de lien.

Il y aussi d’autres types de spam :

3.2.1. Les spams générés par les utilisateurs 

Les spams sont également créés par des utilisateurs ou les robots qui placent des commentaires contenant des coordonnées ou des liens qui vers des sites internet ou des profils d’utilisateur :

spam genere par les utilisateurs

Source : Pipdig 

Si vous aimeriez distinguer les commentaires spammés, vous pouvez tenir compte

  • Des noms d’utilisateurs ;
  • Des e-mails qui ont l’air hors propos ou étranges ou qui ne sont simplement pas dignes de confiance. 

Pour ne pas être pénalisé par Google, il faut agir vite en supprimant tous les commentaires provenant du spam et revoir les contenus figurant sur votre site.

Pour éviter le spam, considérez également ces points :

3.2.2. L’hébergement gratuit

Il est fréquent de rencontrer des services d’hébergement gratuit. Nous vous conseillons de faire attention à ces services, car ceux-ci n’existent pas réellement.

En contrepartie de ce qui vous a été promis, vous n’aurez à observer que des spams de publicités et un mauvais service. 

Google prend des mesures menant à sanctionner cette pratique. Pour éviter d’être pénalisés, vous devez choisir des hébergements utiles et fiables. Payer pour un hébergement est l’une des meilleures solutions qui vous permet d’avoir le plein contrôle. .

À lire : 27 critères pour choisir son hébergeur web ?

3.3. Les pages bourrées de mots-clés

Le bourrage de mots-clés est une technique de référencement SEO Black Hat qui consiste à charger les pages internet de mots-clés pour tenter d’influencer le classement d’un site internet sur le moteur de recherche. 

Ces pages web peuvent comprendre des balises méta et méta description.

L’étendue de cette méthode peut aller jusqu’à inclure :

3.3.1. L’ajouter des mots-clés non-pertinents

Ce sont des mots-clés qui n’ont aucun rapport avec le sujet. 

Par exemple, votre site web présente des contenus qui concernent les meubles, mais vous augmentez des mots-clés sur le jardinage juste pour attirer plus de trafic. 

Google n’hésitera pas à sanctionner ce genre de page.

3.3.2. La répétition exagérée des mots-clés

Le géant moteur de recherche est totalement contre les mots-clés inutilement répétés. On peut inclure à cela l’utilisation de tous les types de mots-clés disponibles. 

seo white hat vs seo black hat

Par exemple, si les mots-clés sont « les meubles d’Éthiopie », éviter ça : 

<<les « meubles d’Éthiopie » sont les meilleurs sur le marché. On retrouve « les meubles d’Éthiopie » dans les boutiques que ça soit en ligne ou en présentiel. « Les meubles d’Éthiopie » sont confortables et doux.>>

3.3.3. Les textes cachés

Une autre méthode de référencement plus ou moins ancienne, est l’emploi des mots-clés sur un site internet dont la police est :

  • Similaire à l’arrière-plan du site web ;
  • Trop réduite, impossible de lire à l’œil nu.

Dans tous les tout cas Google pénalise lorsqu’il remarque la tromperie.

3.4. Les contenus légers

Les spécialistes le disent tout le temps, écrire un contenu de qualité n’est pas une mince affaire. Même si ce critère peut être rempli si vous êtes un excellent rédacteur, le problème restera la fréquence de publication.

En effet, il faut publier des contenus de qualité, mais de façon régulière. Si vous ne publiez qu’un article une fois par mois, vous risquez de moins performer que quelqu’un qui effectue plusieurs publications par mois.

pourcentage de blogueurs qui font état d'un bon résultat selon la fréquence de publication

Source : Marketing Insider Group

Pour profiter des avantages d’une publication régulière, certains n’hésitent pas à publier tout type de contenus qui passent sous leur main. D’autres personnes utilisent un raccourci qui consiste à copier intégralement ou partiellement des contenus (contenu dupliqué vu précédemment).

De tels contenus sont considérés par Google comme démunis de toute originalité et offrant peu de valeur ajoutée à ses utilisateurs. En leur accordant très peu d’intérêt dans les SERP, le moteur de recherche peut facilement désindexer ces contenus ou le site au complet.

En résumé

L’optimisation d’un site internet sur les moteurs de recherche dépend d’un ou de plusieurs facteurs. 

L’indexation est une phase de référencement permettant aux moteurs de recherche de pouvoir afficher les contenus des sites web dans leur résultat.

Par contre, la désindexation mobilise diverses techniques consistant à supprimer de l’index certains contenus jugés de faible qualité ou privés afin de rendre plus qualitatif le site.

Les techniques de désindexation sont nombreuses, mais quelques-unes ont été citées et détaillées dans cet article.

J’espère qu’il vous aura aidé ou apporté quelques astuces de plus.

A bientôt !