Fonctionnement des moteurs de recherche : exploration, indexation et classement

fonctionnement moteurs de recherche

Sommaire

Guillaume
Beaurepaire

Fondateur
Café SEO

Partager cet article

Comme nous l’avons mentionné au chapitre 1 , les moteurs de recherche sont des répondeurs. Ils existent pour découvrir, comprendre et organiser le contenu d’Internet afin d’offrir les résultats les plus pertinents aux questions des chercheurs.

Afin de s’afficher dans les résultats de recherche, votre contenu doit d’abord être visible pour les moteurs de recherche. C’est sans doute la pièce la plus importante du puzzle du référencement : si votre site ne peut pas être trouvé, il est impossible que vous apparaissiez un jour dans les SERPs (page de résultats des moteurs de recherche).

1. Comment fonctionnent les moteurs de recherche ?

Les moteurs de recherche ont trois fonctions principales :

  1. Explorer : parcourez Internet à la recherche de contenu, en parcourant le code / contenu pour chaque URL trouvée.
  2. Indexer  : stockez et organisez le contenu trouvé lors du processus d’analyse. Une fois qu’une page est dans l’index, il est en cours d’exécution pour être affichée à la suite de requêtes pertinentes.
  3. Ranker  : indiquez les éléments de contenu qui répondront le mieux à la requête d’un chercheur, ce qui signifie que les résultats sont classés par ordre de pertinence.

Qu’est-ce que l’exploration des moteurs de recherche ?

L’analyse est le processus de découverte dans lequel les moteurs de recherche envoient une équipe de robots (appelés robots d’exploration ou araignées) pour rechercher du contenu nouveau et mis à jour. Le contenu peut varier (une page Web, une image, une vidéo, un PDF, etc.), mais quel que soit le format, le contenu est découvert par des liens.

Googlebot commence par récupérer quelques pages Web, puis suit les liens de ces pages Web pour trouver de nouvelles URL. En parcourant ce chemin de liens, le robot d’exploration peut trouver du nouveau contenu et l’ajouter à son index appelé Caffeine – une base de données volumineuse d’URL découvertes – à récupérer ultérieurement lorsqu’un chercheur recherche des informations indiquant que le contenu de cette URL est un contenu. bon match pour.

Qu’est-ce qu’un index de moteur de recherche?

Les moteurs de recherche traitent et stockent les informations qu’ils trouvent dans un index, une énorme base de données contenant tout le contenu qu’ils ont découvert et qu’ils jugent assez bon pour servir aux chercheurs.

Classement des moteurs de recherche

Lorsqu’une personne effectue une recherche, les moteurs de recherche explorent leur index à la recherche d’un contenu très pertinent, puis l’ordonnent dans l’espoir de résoudre le problème du chercheur. Cet ordre de résultats de recherche par pertinence est appelé classement. En général, vous pouvez supposer que plus un site Web est classé, plus le moteur de recherche estime que ce site est pertinent pour la requête.

Il est possible de bloquer les robots d’exploration de tout ou partie de votre site ou de demander aux moteurs de recherche d’éviter de stocker certaines pages dans leur index. Bien que cela puisse avoir des raisons, si vous voulez que votre contenu soit trouvé par les chercheurs, vous devez d’abord vous assurer qu’il est accessible aux robots d’exploration et qu’il est indexable. Sinon, c’est presque invisible.

À la fin de ce chapitre, vous aurez le contexte nécessaire pour travailler avec le moteur de recherche plutôt que contre lui!

En référencement, tous les moteurs de recherche ne sont pas égaux

Beaucoup de débutants s’interrogent sur l’importance relative de certains moteurs de recherche. La plupart des gens savent que Google détient la plus grande part de marché, mais quelle est l’importance d’optimiser Bing, Yahoo et d’autres? La vérité est que, malgré l’existence de plus de 30 principaux moteurs de recherche sur le Web , la communauté du référencement n’est vraiment attentive qu’à Google. Pourquoi? La réponse courte est que Google est l’endroit où la grande majorité des internautes effectue des recherches sur le Web. Si nous incluons Google Images, Google Maps et YouTube (une propriété de Google), plus de 90% des recherches sur le Web sont effectuées sur Google, ce qui représente près de 20 fois la combinaison de Bing et de Yahoo.

2. Crawling: Les moteurs de recherche peuvent-ils trouver vos pages ?

Comme vous venez de l’apprendre, vous devez vous assurer que votre site est exploré et indexé pour pouvoir apparaître dans les SERP. Si vous avez déjà un site Web, il peut être judicieux de commencer par voir combien de vos pages figurent dans l’index. Cela nous permettra de savoir si Google explore et trouve toutes les pages que vous souhaitez, et aucune autre.

Un moyen de vérifier vos pages indexées est « site: votredomaine.com », un opérateur de recherche avancée . Allez sur Google et tapez « site: yourdomain.com » dans la barre de recherche. Cela renverra les résultats de Google dans son index pour le site spécifié:

Le nombre de résultats affichés par Google (voir «À propos de XX résultats» ci-dessus) n’est pas exact, mais il vous donne une idée précise des pages indexées sur votre site et de la façon dont elles apparaissent dans les résultats de recherche.

Pour des résultats plus précis, surveillez et utilisez le rapport Couverture d’index dans la console de recherche Google. Vous pouvez créer un compte gratuit sur la console de recherche Google si vous n’en avez pas. Avec cet outil, vous pouvez, entre autres, soumettre des sitemaps pour votre site et contrôler le nombre de pages soumises qui ont été réellement ajoutées à l’index de Google.

Si vous ne vous présentez nulle part dans les résultats de la recherche, plusieurs raisons peuvent expliquer pourquoi:

  • Votre site est flambant neuf et n’a pas encore été exploré.
  • Votre site n’est lié à aucun site Web externe.
  • La navigation de votre site empêche un robot de l’explorer efficacement.
  • Votre site contient du code de base appelé directives de balayage qui bloque les moteurs de recherche.
  • Votre site a été pénalisé par Google pour tactique anti-spam.

Expliquez aux moteurs de recherche comment explorer votre site

Si vous utilisez Google Search Console ou l’opérateur de recherche avancée «site: domain.com» et constatez que certaines de vos pages importantes sont absentes de l’index et / ou que certaines de vos pages non importantes ont été indexées par erreur, vous pouvez optimiser certaines optimisations. implémenter pour mieux diriger Googlebot sur la manière dont votre contenu Web doit être exploré. Expliquer aux moteurs de recherche comment explorer votre site peut vous permettre de mieux contrôler ce qui se trouve dans l’index.

La plupart des gens envisagent de s’assurer que Google trouve leurs pages importantes, mais il est facile d’oublier qu’il existe probablement des pages que vous ne voulez pas que Googlebot trouve. Celles-ci peuvent inclure des choses telles que les anciennes URL à contenu fin, les adresses dupliquées (telles que les paramètres de tri et de filtrage pour le commerce électronique), les pages de codes promotionnels spéciaux, les pages de transfert ou de test, etc.

Pour éloigner Googlebot de certaines pages et de certaines sections de votre site, utilisez le fichier robots.txt.

Robots.txt

Les fichiers Robots.txt se trouvent dans le répertoire racine des sites Web (par exemple, votredomaine.com/robots.txt) et suggèrent les parties de votre site qui doivent et ne doivent pas analyser, ainsi que la vitesse à laquelle elles explorent votre site. , via des directives spécifiques robots.txt .

Comment Googlebot traite-t-il les fichiers robots.txt?

  • Si Googlebot ne parvient pas à trouver un fichier robots.txt pour un site, il procède à une analyse du site.
  • Si Googlebot trouve un fichier robots.txt pour un site, il respectera généralement les suggestions et procédera à une analyse du site.
  • Si Googlebot rencontre une erreur en essayant d’accéder au fichier robots.txt d’un site et ne peut pas déterminer s’il en existe un ou non, il n’explorera pas le site.

Optimiser pour le budget d’analyse !

Le budget d’exploration correspond au nombre moyen d’URL que Googlebot explorera sur votre site avant de quitter. Par conséquent, l’optimisation de l’analyse du budget garantit que Googlebot ne perd pas de temps à explorer vos pages sans importance au risque d’ignorer vos pages importantes. Le budget d’exploration est particulièrement important sur les très grands sites contenant des dizaines de milliers d’URL , mais il n’est jamais mauvais d’empêcher les robots d’explorer d’accéder au contenu qui ne vous intéresse pas du tout. Assurez-vous simplement de ne pas bloquer l’accès d’un robot d’exploration aux pages sur lesquelles vous avez ajouté d’autres directives, telles que les balises canonical ou noindex. Si Googlebot est bloqué sur une page, il ne pourra pas voir les instructions affichées sur cette page.

Tous les robots Web ne suivent pas le fichier robots.txt. Les personnes mal intentionnées (par exemple, les grattoirs d’adresses de messagerie) construisent des robots qui ne suivent pas ce protocole. En fait, certains mauvais acteurs utilisent les fichiers robots.txt pour trouver où vous avez localisé votre contenu privé. Bien qu’il puisse sembler logique de bloquer les robots d’exploration des pages privées, telles que les pages de connexion et d’administration, afin qu’ils n’apparaissent pas dans l’index, le fait de placer l’emplacement de ces URL dans un fichier robots.txt accessible au public signifie également que les personnes mal intentionnées peut plus facilement les trouver. Il est préférable de remplacer ces pages par NoIndex et de les placer derrière un formulaire de connexion plutôt que de les placer dans votre fichier robots.txt.

Vous pouvez lire plus de détails à ce sujet dans la partie robots.txt de notre centre de formation .

Définition des paramètres d’URL dans GSC

Certains sites (le plus souvent avec le commerce électronique) rendent le même contenu disponible sur plusieurs URL différentes en ajoutant certains paramètres aux URL. Si vous avez déjà magasiné en ligne, vous avez probablement affiné votre recherche au moyen de filtres. Par exemple, vous pouvez rechercher des «chaussures» sur Amazon, puis affiner votre recherche en fonction de la taille, de la couleur et du style. A chaque raffinement, l’URL change légèrement:

https://www.example.com/products/women/dresses/green.htm

 

https://www.example.com/products/women?category=dresses&color=green

 

https://example.com/shopindex.php?product_id=32&highlight=green+dress

& cat_id = 1 & sessionid = 123 $ affid = 43

Comment Google sait-il quelle version de l’URL doit être utilisée par les internautes? Google réussit très bien à déterminer lui-même l’URL du représentant, mais vous pouvez utiliser la fonctionnalité Paramètres d’URL de la console de recherche Google pour indiquer à Google exactement comment vous souhaitez que vos pages soient traitées. Si vous utilisez cette fonctionnalité pour indiquer à Googlebot «d’analyser aucune URL avec le paramètre ____», vous demandez essentiellement à masquer ce contenu à Googlebot, ce qui pourrait entraîner la suppression de ces pages dans les résultats de recherche. C’est ce que vous voulez si ces paramètres créent des pages en double, mais ce n’est pas idéal si vous voulez que ces pages soient indexées.

Les robots peuvent-ils trouver tout votre contenu important?

Maintenant que vous connaissez certaines tactiques pour vous assurer que les robots d’exploration de moteurs de recherche restent à l’écart de votre contenu sans importance, étudions les optimisations pouvant aider Googlebot à trouver vos pages importantes.

Parfois, un moteur de recherche sera capable de trouver des parties de votre site en rampant, mais d’autres pages ou sections pourraient être masquées pour une raison ou une autre. Il est important de vous assurer que les moteurs de recherche sont en mesure de découvrir tout le contenu que vous souhaitez indexer, et pas seulement votre page d’accueil.

Demandez – vous ceci: peut – il crawl bot à travers votre site Web, et pas seulement à elle?

Votre contenu est-il caché derrière des formulaires de connexion?

Si vous souhaitez que les utilisateurs se connectent, remplissent des formulaires ou répondent à des sondages avant d’accéder à certains contenus, les moteurs de recherche ne verront pas ces pages protégées. Un robot d’exploration ne va certainement pas se connecter.

Utilisez-vous des formulaires de recherche?

Les robots ne peuvent pas utiliser les formulaires de recherche. Certaines personnes croient que s’ils placent un champ de recherche sur leur site, les moteurs de recherche pourront trouver tout ce que leurs visiteurs recherchent.

Le texte est-il caché dans un contenu non textuel?

Les formulaires multimédias non textuels (images, vidéo, GIF, etc.) ne doivent pas être utilisés pour afficher le texte que vous souhaitez indexer. Bien que les moteurs de recherche reconnaissent de mieux en mieux les images, rien ne garantit qu’ils pourront le lire et le comprendre pour le moment. Il est toujours préférable d’ajouter du texte dans le balisage <HTML> de votre page Web.

Les moteurs de recherche peuvent-ils suivre la navigation de votre site?

Tout comme un robot d’exploration doit découvrir votre site via des liens provenant d’autres sites, il lui faut un chemin contenant des liens sur votre propre site pour le guider de page en page. Si vous avez une page que vous voulez que les moteurs de recherche trouvent mais qui n’est pas liée à une autre page, elle est presque invisible. De nombreux sites commettent l’erreur critique de structurer leur navigation de manière inaccessible aux moteurs de recherche, ce qui entrave leur capacité à figurer dans les résultats de recherche.

Erreurs de navigation courantes pouvant empêcher les robots d’exploration de voir votre site :

  • Avoir une navigation mobile qui affiche des résultats différents de ceux de votre bureau

  • Tout type de navigation dont les éléments de menu ne figurent pas dans le code HTML, telles que les navigations activées par JavaScript. Google a beaucoup amélioré l’exploration et la compréhension de Javascript, mais le processus n’est pas encore parfait . Le moyen le plus sûr de s’assurer que quelque chose est trouvé, compris et indexé par Google consiste à le mettre au format HTML.
  • La personnalisation, ou l’affichage d’une navigation unique pour un type spécifique de visiteur par rapport à d’autres, peut sembler dissimuler le crawler d’un moteur de recherche.
  • Oublier de créer un lien vers une page principale de votre site Web via votre navigation – rappelez-vous, les liens sont les chemins empruntés par les robots d’exploration pour les nouvelles pages!

C’est pourquoi il est essentiel que votre site Web dispose d’une navigation claire et de structures de dossiers URL utiles.

Avez-vous une architecture d’information propre ?

L’architecture de l’information est la pratique consistant à organiser et à étiqueter le contenu d’un site Web afin d’améliorer l’efficacité et la facilité de recherche des utilisateurs. La meilleure architecture d’information est intuitive, ce qui signifie que les utilisateurs ne devraient pas avoir à réfléchir très fort pour parcourir leur site Web ou pour trouver quelque chose.

Utilisez-vous des sitemaps  ?

Cela ressemble à un sitemap: une liste d’URL sur votre site que les robots peuvent utiliser pour découvrir et indexer votre contenu. L’un des moyens les plus simples de vous assurer que Google trouve vos pages les plus prioritaires est de créer un fichier conforme aux normes de Google et de l’envoyer via la console de recherche Google. Bien que la soumission d’un sitemap ne remplace pas la nécessité d’une bonne navigation sur le site, elle peut certainement aider les robots d’exploration à suivre le chemin de toutes vos pages importantes.

Assurez-vous que vous avez uniquement inclus les URL que vous souhaitez indexer par les moteurs de recherche et veillez à donner des directions cohérentes aux crawlers. Par exemple, n’incluez pas d’URL dans votre sitemap si vous avez bloqué cette URL via le fichier robots.txt, ni d’inclure dans votre sitemap des URL dupliquées plutôt que la version canonique préférée (nous fournirons plus d’informations sur la canonisation dans le chapitre 5 !).

En savoir plus sur les sitemaps XML 

Si aucun autre site ne contient de lien vers votre site, vous pourrez peut-être le faire indexer en soumettant votre sitemap XML dans la console de recherche Google. Rien ne garantit qu’ils incluront une URL soumise dans leur index, mais cela vaut la peine d’essayer!

Les robots d’exploration reçoivent-ils des erreurs lorsqu’ils tentent d’accéder à vos URL ?

Lors du processus d’exploration des URL sur votre site, un robot peut rencontrer des erreurs. Vous pouvez accéder au rapport « Erreurs d’analyse » de la console de recherche Google pour détecter les URL sur lesquelles cela pourrait se produire. Ce rapport vous montrera les erreurs de serveur et les erreurs non trouvées. Les fichiers journaux du serveur peuvent également vous montrer cela, ainsi qu’une mine d’informations, telles que la fréquence d’analyse, mais l’accès et la dissection des fichiers journaux du serveur étant une tactique plus avancée, nous n’en parlerons pas en détail dans le Guide du débutant, bien que vous puissiez en apprendre plus à ce sujet ici .

Avant de pouvoir faire quelque chose de significatif avec le rapport d’erreur d’analyse, il est important de comprendre les erreurs de serveur et les erreurs « introuvable ».

Codes 4xx: Lorsque les robots des moteurs de recherche ne peuvent pas accéder à votre contenu en raison d’une erreur du client

Les erreurs 4xx sont des erreurs client, ce qui signifie que l’URL demandée contient une syntaxe incorrecte ou ne peut pas être remplie. L’une des erreurs 4xx les plus courantes est l’erreur «404 – introuvable». Celles-ci peuvent survenir à cause d’une typo d’URL, d’une page supprimée ou d’une redirection interrompue, pour ne citer que quelques exemples. Lorsque les moteurs de recherche atteignent un 404, ils ne peuvent pas accéder à l’URL. Lorsque les utilisateurs atteignent un 404, ils peuvent être frustrés et partir.

Codes 5xx: Lorsque les robots du moteur de recherche ne peuvent pas accéder à votre contenu en raison d’une erreur de serveur

Les erreurs 5xx sont des erreurs de serveur, ce qui signifie que le serveur sur lequel se trouve la page Web n’a pas réussi à répondre à la demande du chercheur ou du moteur de recherche d’accéder à la page. Dans le rapport « Erreur d’analyse » de la console de recherche Google, un onglet est dédié à ces erreurs. Cela est généralement dû au fait que la requête pour l’URL a expiré et Googlebot l’a donc abandonnée. Consultez la documentation de Google pour en savoir plus sur la résolution des problèmes de connectivité des serveurs.

Heureusement, il existe un moyen d’indiquer aux chercheurs et aux moteurs de recherche que votre page a été déplacée: la redirection 301 (permanente).

Créez des pages personnalisées de 404 !

Personnalisez votre page 404 en ajoutant des liens vers des pages importantes de votre site, une fonction de recherche sur le site et même des informations de contact. Cela devrait réduire les chances que les visiteurs rebondissent sur votre site lorsqu’ils atteignent un 404.

En savoir plus sur les pages 404 personnalisées 

Supposons que vous déplacez une page d’ exemple.com/ young- dogs/ vers exemple.com/puppies/ . Les moteurs de recherche et les utilisateurs ont besoin d’un pont pour passer de l’ancienne URL à la nouvelle. Ce pont est une redirection 301.

Lorsque vous implémentez un 301: Lorsque vous n’implémentez pas un 301:
Équité de lien Transfère l’équité du lien de l’ancien emplacement de la page vers la nouvelle URL. Sans un 301, l’autorité de l’URL précédente n’est pas transmise à la nouvelle version de l’URL.
Indexage Aide Google à rechercher et à indexer la nouvelle version de la page. La présence d’erreurs 404 sur votre site à elle seule ne nuit pas aux performances de recherche, mais laisser le classement / les pages 401 trafiquées peut entraîner leur disparition de l’index, le classement et le trafic s’en allant – beurk!
Expérience utilisateur Assure que les utilisateurs trouvent la page qu’ils recherchent. Permettre à vos visiteurs de cliquer sur des liens inactifs les mènera à des pages d’erreur au lieu de la page souhaitée, ce qui peut être frustrant.

Le code d’état 301 lui-même signifie que la page a été déplacée de manière permanente vers un nouvel emplacement. Par conséquent, évitez de rediriger les URL vers des pages non pertinentes, des URL où le contenu de l’ancienne URL ne réside pas réellement. Si une page est en cours de classement pour une requête et que vous la dirigez vers une URL avec un contenu différent, elle risque de perdre sa position car le contenu qui l’a rendue pertinente pour cette requête particulière n’y figure plus. Les 301 sont puissants – déplacez les URL de manière responsable!

Vous avez également la possibilité de rediriger une page 302, mais cette option doit être réservée aux déplacements temporaires et aux cas dans lesquels le dépassement de l’équité du lien n’est pas aussi préoccupant. Les 302 sont un peu comme un détour de route. Vous siphonnez temporairement le trafic sur un itinéraire donné, mais ce ne sera pas ainsi pour toujours.

Attention aux chaînes de redirection!

Il peut être difficile pour Googlebot d’accéder à votre page si celle-ci doit suivre plusieurs redirections. Google appelle ces « chaînes de redirection » et recommande de les limiter autant que possible. Si vous redirigez exemple.com/1 vers exemple.com/2, puis décidez de le rediriger ultérieurement vers exemple.com/3, il est préférable d’éliminer l’intermédiaire et de simplement rediriger exemple.com/1 vers exemple.com/3.

En savoir plus sur les chaînes de redirection 

Une fois que vous vous êtes assuré que votre site est optimisé pour l’exploitabilité, vous devez vous assurer qu’il peut être indexé.

3. Indexation: comment les moteurs de recherche interprètent et stockent vos pages?

Une fois que vous avez vérifié que votre site a été analysé, vous devez vous assurer qu’il peut être indexé. En effet, le fait que votre site puisse être découvert et analysé par un moteur de recherche ne signifie pas nécessairement qu’il sera stocké dans leur index. Dans la section précédente sur l’analyse, nous avons expliqué comment les moteurs de recherche découvrent vos pages Web. L’index est l’endroit où sont stockées vos pages découvertes. Une fois qu’un robot d’exploration a trouvé une page, le moteur de recherche la restitue exactement comme le ferait un navigateur. Ce faisant, le moteur de recherche analyse le contenu de cette page. Toutes ces informations sont stockées dans son index.

Poursuivez votre lecture pour découvrir le fonctionnement de l’indexation et savoir comment vous assurer que votre site en fait une base de données extrêmement importante.

Puis-je voir comment un robot Googlebot voit mes pages?

Oui, la version en cache de votre page reflétera un instantané de la dernière fois que Googlebot l’a explorée.

Google explore et met en cache des pages Web à différentes fréquences. Plus établies, les sites bien connus qui postent souvent comme https://www.nytimes.com seront explorés plus fréquemment que le site très moins célèbre pour Roger la bousculade du côté Mozbot, http://www.rogerlovescupcakes.com ( si seulement c’était réel…)

Vous pouvez voir à quoi ressemble la version en cache d’une page en cliquant sur la flèche déroulante située en regard de l’URL dans le SERP et en choisissant « Mis en cache »:

 

Vous pouvez également afficher la version texte de votre site pour déterminer si votre contenu important est analysé et mis en cache efficacement.

Des pages sont-elles jamais supprimées de l’index?

Oui, les pages peuvent être supprimées de l’index! Parmi les principales raisons pour lesquelles une URL peut être supprimée, citons:

  • L’URL renvoie une erreur « introuvable » (4XX) ou une erreur de serveur (5XX). Cette erreur peut être accidentelle (la page a été déplacée et une redirection 301 n’a pas été configurée) ou intentionnelle (la page a été supprimée et 404 afin de l’obtenir supprimé de l’index)
  • Une balise méta noindex a été ajoutée à l’URL. Cette balise peut être ajoutée par les propriétaires de site pour indiquer au moteur de recherche d’omettre la page de son index.
  • L’URL a été pénalisée manuellement pour avoir enfreint les règles Webmaster du moteur de recherche et, par conséquent, a été supprimée de l’index.
  • L’analyse a bloqué l’URL avec l’ajout d’un mot de passe requis avant que les visiteurs puissent accéder à la page.

Si vous pensez qu’une page de votre site Web qui figurait auparavant dans l’index de Google n’apparaît plus, vous pouvez utiliser l’ outil de contrôle des URL pour connaître l’état de la page ou utiliser Fetch as Google, qui dispose d’une fonctionnalité « Demander l’indexation ». soumettre des URL individuelles à l’index. (Bonus: l’outil de récupération de GSC comporte également une option de « rendu » qui vous permet de voir s’il existe des problèmes avec la façon dont Google interprète votre page).

4. Indiquez aux moteurs de recherche comment indexer votre site

Méta directives robotiques

Les méta directives (ou « balises méta ») sont des instructions que vous pouvez donner aux moteurs de recherche en ce qui concerne le traitement de votre page Web.

Vous pouvez dire aux robots des moteurs de recherche des choses telles que « ne pas indexer cette page dans les résultats de recherche » ou « ne transmettez aucune équité de lien à des liens sur une page ». Ces instructions sont exécutées via les balises Meta Robots dans la <tête> de vos pages HTML (les plus utilisées) ou via la balise X-Robots dans l’en-tête HTTP.

Balise Meta Robots

La méta-balise robots peut être utilisée dans la <head> du code HTML de votre page Web. Il peut exclure tous ou certains moteurs de recherche. Vous trouverez ci-dessous les méta-directives les plus courantes, ainsi que les situations dans lesquelles vous pourriez les appliquer.

index / noindex indique aux moteurs si la page doit être analysée et conservée dans l’index d’un moteur de recherche pour la récupération. Si vous choisissez d’utiliser « noindex », vous communiquez aux robots d’exploration que vous souhaitez que la page soit exclue des résultats de la recherche. Par défaut, les moteurs de recherche supposent qu’ils peuvent indexer toutes les pages, il est donc inutile d’utiliser la valeur « index ».

  • Quand pouvez-vous utiliser: Vous pouvez choisir de marquer une page comme « noindex » si vous essayez de couper les pages minces à partir de l’index de votre site de Google (par exemple: les pages de profil générées par l’utilisateur) mais que vous souhaitez néanmoins les rendre accessibles aux visiteurs.

follow / nofollow indique aux moteurs de recherche si les liens de la page doivent être suivis ou non suivis. « Suivez » a pour résultat que les robots suivent les liens sur votre page et transmettent l’équité des liens à ces URL. Ou, si vous choisissez d’employer « nofollow », les moteurs de recherche ne suivront ni ne transmettront aucun lien de lien aux liens de la page. Par défaut, toutes les pages sont supposées avoir l’attribut « suivre ».

  • Lorsque vous pouvez utiliser: nofollow est souvent utilisé avec noindex lorsque vous essayez d’empêcher l’indexation d’une page et que le robot d’exploration ne suit pas les liens de la page.

noarchive est utilisé pour empêcher les moteurs de recherche de sauvegarder une copie en cache de la page. Par défaut, les moteurs conserveront des copies visibles de toutes les pages indexées, accessibles aux chercheurs via le lien mis en cache dans les résultats de la recherche.

  • Quand pouvez-vous utiliser: Si vous exploitez un site de commerce électronique et que vos prix changent régulièrement, vous pouvez envisager d’utiliser la balise noarchive pour empêcher les chercheurs de voir des prix obsolètes.

Voici un exemple d’une balise méta robots noindex, nofollow:

<! DOCTYPE html>

<html>

<tête>

<meta name = « robots » content = « noindex, nofollow » />

</ head>

<body> … </ body>

</ html>

Cet exemple exclut tous les moteurs de recherche de l’indexation de la page et du suivi des liens sur la page. Si vous souhaitez exclure plusieurs robots d’exploration, comme Google et Bing par exemple, vous pouvez utiliser plusieurs balises d’exclusion de robots.

Les méta-directives affectent l’indexation, pas l’analyse

Googlebot doit analyser votre page afin de voir ses méta-directives. Par conséquent, si vous essayez d’empêcher les robots d’exploration d’accéder à certaines pages, les méta-directives ne sont pas le moyen de le faire. Les tags de robots doivent être explorés pour être respectés.

X-Robots-Tag

La balise x-robots est utilisée dans l’en-tête HTTP de votre URL, offrant plus de souplesse et de fonctionnalités que les méta-balises si vous souhaitez bloquer les moteurs de recherche à grande échelle, car vous pouvez utiliser des expressions régulières, bloquer des fichiers non HTML et appliquer des balises noindex à l’ensemble du site. .

Par exemple, vous pouvez facilement exclure des dossiers entiers ou des types de fichiers (comme moz.com/no-bake/old-recipes-to-noindex):

<Fichiers ~ “\ /? No \ -bake \ /.*”>

Jeu d’en-têtes X-Robots-Tag “noindex, nofollow”

</ Files>

Les dérivés utilisés dans une méta-étiquette de robots peuvent également être utilisés dans un X-Robots-Tag.

Ou des types de fichiers spécifiques (comme les PDF):

<Fichiers ~ “\ .pdf $”>

Jeu d’en-têtes X-Robots-Tag “noindex, nofollow”

</ Files>

Pour plus d’informations sur les balises Meta Robot, consultez les Spécifications de la balise Meta Robots de Google .

Astuce WordPress :

Dans Tableau de bord> Paramètres> Lecture, assurez-vous que la case « Visibilité dans les moteurs de recherche » n’est pas cochée. Cela empêche les moteurs de recherche d’accéder à votre site via votre fichier robots.txt!

Comprendre les différentes manières dont vous pouvez influencer l’exploration et l’indexation vous aidera à éviter les pièges courants qui peuvent empêcher vos pages importantes d’être trouvées.

5. Classement : comment les moteurs de recherche classent-ils les URL?

Comment les moteurs de recherche s’assurent-ils que lorsque quelqu’un tape une requête dans la barre de recherche, il obtient des résultats pertinents en retour? Ce processus est connu sous le nom de classement ou classement des résultats de recherche par ordre de pertinence entre les moins pertinents pour une requête donnée.

Pour déterminer la pertinence, les moteurs de recherche utilisent des algorithmes, un processus ou une formule selon lesquels les informations stockées sont récupérées et classées de manière significative. Ces algorithmes ont subi de nombreux changements au fil des ans afin d’améliorer la qualité des résultats de recherche. Google, par exemple, effectue des ajustements d’algorithme tous les jours – certaines de ces mises à jour sont des modifications mineures de qualité, tandis que d’autres sont des mises à jour d’algorithmes de base / étendues déployées pour résoudre un problème spécifique, comme Penguin pour lutter contre le spam par lien. Consultez l’ historique des modifications de votre algorithme Google pour obtenir une liste des mises à jour Google confirmées et non confirmées depuis l’an 2000.

Pourquoi l’algorithme change-t-il si souvent? Google essaie-t-il simplement de nous garder sur nos gardes? Bien que Google ne révèle pas toujours les raisons pour lesquelles ils font ce qu’ils font, nous savons que l’objectif de Google lors de l’ajustement des algorithmes est d’améliorer la qualité globale de la recherche. C’est pourquoi, en réponse aux questions sur les mises à jour d’algorithmes, Google répondra par un message du type: « Nous apportons des mises à jour de qualité à tout moment. » Cela indique que si votre site a souffert après un ajustement de l’algorithme, comparez-le avec les recommandations de Google en matière de qualité ou de recommandations pour les évaluateurs de la qualité de la recherche.

Que veulent les moteurs de recherche ?

Les moteurs de recherche ont toujours voulu la même chose: fournir des réponses utiles aux questions des chercheurs dans les formats les plus utiles. Si tel est le cas, pourquoi semble-t-il que le référencement est différent de celui des années passées?

Pensez-y en termes d’apprentissage d’une nouvelle langue.

Au début, leur compréhension de la langue est très rudimentaire – «See Spot Run». Au fil du temps, leur compréhension commence à s’approfondir et ils apprennent la sémantique – la signification de la langue et la relation entre mots et expressions. Finalement, avec suffisamment de pratique, l’élève connaît assez bien la langue pour même comprendre les nuances et est capable de fournir des réponses aux questions même les plus vagues ou incomplètes.

Lorsque les moteurs de recherche commençaient à peine à apprendre notre langue, il était beaucoup plus facile de jouer avec le système en utilisant des astuces et des tactiques allant à l’encontre des consignes de qualité. Prenez le bourrage de mots-clés, par exemple. Si vous souhaitez classer un mot clé comme « blagues amusantes », vous pouvez ajouter les mots « plaisanteries amusantes » plusieurs fois sur votre page et la rendre audacieuse, dans l’espoir d’améliorer votre classement pour ce terme:

Bienvenue aux blagues drôles ! Nous racontons les blagues les plus drôles du monde. Les blagues drôles sont amusantes et folles. Votre blague drôle attend. Asseyez – vous et lire des blagues drôles parce que les blagues drôles peuvent vous rendre heureux et plus drôle . Quelques blagues amusantes préférées .

Cette tactique permettait de terribles expériences utilisateur et, au lieu de rire de plaisanteries amusantes, les gens étaient bombardés par un texte ennuyeux et difficile à lire. Cela a peut-être fonctionné dans le passé, mais ce n’est jamais ce que les moteurs de recherche ont voulu.

Le rôle des liens dans le référencement

Lorsque nous parlons de liens, nous pourrions dire deux choses. Backlinks ou « liens entrants » sont des liens provenant d’autres sites Web qui pointent vers votre site Web, tandis que des liens internes sont des liens sur votre propre site qui pointent vers vos autres pages (sur le même site).

Les liens ont toujours joué un rôle important dans le référencement. Très tôt, les moteurs de recherche avaient besoin d’aide pour déterminer quelles URL étaient plus fiables que d’autres afin de les aider à déterminer le classement des résultats de recherche. Le calcul du nombre de liens pointant vers un site donné les a aidés à le faire.

Les backlinks fonctionnent de manière très similaire aux références réelles de WoM (Word of Mouth). Prenons l’exemple d’un café hypothétique, Jenny’s Coffee:

  • Références de la part des autres = bon signe d’autorité
    • Exemple: Beaucoup de personnes différentes vous ont dit que le café Jenny’s est le meilleur de la ville.
  • Les références de votre part = biaisées, donc pas un bon signe d’autorité
    • Exemple: Jenny affirme que le café Jenny’s est le meilleur de la ville.
  • Les renvois provenant de sources non pertinentes ou de mauvaise qualité = ne sont pas un bon signe d’autorité et pourraient même vous faire signaler comme spam.
    • Exemple: Jenny a payé pour que des gens qui ne sont jamais allés dans son café disent aux autres à quel point c’est bon.
  • Aucune référence = autorité peu claire
    • Exemple: Jenny’s Coffee est peut-être bon, mais vous n’avez pas réussi à trouver une personne ayant une opinion, vous ne pouvez donc pas en être sûr.

C’est pourquoi PageRank a été créé. PageRank (qui fait partie de l’algorithme principal de Google) est un algorithme d’analyse de lien nommé en l’honneur de l’un des fondateurs de Google, Larry Page. PageRank estime l’importance d’une page Web en mesurant la qualité et la quantité de liens pointant vers celle-ci. L’hypothèse est que plus une page Web est pertinente, importante et fiable, plus elle génère de liens.

Plus vous avez de backlinks naturels sur des sites Web à haute autorité (de confiance), meilleures sont vos chances de classement dans les résultats de recherche.

Le rôle du contenu dans le référencement

Les liens n’auraient aucun intérêt s’ils ne dirigeaient pas les chercheurs vers quelque chose. Ce quelque chose est content! Le contenu est plus que des mots; tout ce qui est destiné à être consommé par les internautes – contenu vidéo, image et, bien sûr, texte. Si les moteurs de recherche sont des répondeurs, le contenu est le moyen par lequel ils répondent.

Chaque fois que quelqu’un effectue une recherche, des milliers de résultats sont possibles. Comment les moteurs de recherche décident-ils des pages que le chercheur trouvera utiles? Pour déterminer le classement de votre page pour une requête donnée, il est essentiel de déterminer dans quelle mesure le contenu de votre page correspond à l’intention de la requête. En d’autres termes, cette page correspond-elle aux mots recherchés et aide-t-elle à accomplir la tâche que le chercheur essayait d’accomplir?

En raison de l’accent mis sur la satisfaction des utilisateurs et l’accomplissement des tâches, il n’existe aucune référence stricte en ce qui concerne la longueur de votre contenu, le nombre de fois qu’il doit contenir un mot clé ou le contenu des balises d’en-tête. Tous ces éléments peuvent jouer un rôle dans la performance d’une page dans les recherches, mais l’accent devrait être mis sur les utilisateurs qui liront le contenu.

Aujourd’hui, avec des centaines voire des milliers de signaux de classement, les trois premiers sont restés relativement cohérents: liens vers votre site Web (qui servent de signaux de crédibilité tiers), contenu sur la page (contenu de qualité qui répond à l’intention du chercheur) et RankBrain.

Qu’est-ce que RankBrain?

RankBrain est le composant d’apprentissage automatique de l’algorithme principal de Google. L’apprentissage automatique est un programme informatique qui continue d’améliorer ses prévisions avec le temps grâce à de nouvelles observations et de nouvelles données d’entraînement. En d’autres termes, il s’agit toujours d’apprentissage, et comme c’est toujours le cas, les résultats de la recherche devraient s’améliorer constamment.

Par exemple, si RankBrain remarque une URL de classement inférieure fournissant aux utilisateurs un meilleur résultat que les URL de classement supérieures, vous pouvez parier que RankBrain ajustera ces résultats, en augmentant le résultat le plus pertinent et en rétrogradant les pages les moins pertinentes.

Comme la plupart des choses avec le moteur de recherche, nous ne savons pas exactement ce qui compose RankBrain, mais apparemment, les gens de Google non plus .

Qu’est-ce que cela signifie pour les référenceurs?

Dans la mesure où Google continuera à utiliser RankBrain pour promouvoir le contenu le plus pertinent et le plus utile, nous devons nous efforcer de réaliser plus que jamais l’intention des internautes. Fournissez les meilleures informations et expériences possibles aux internautes qui pourraient atterrir sur votre page, et vous avez fait le premier pas important pour réussir dans un monde RankBrain.

Mesures d’engagement: corrélation, causalité ou les deux?

Avec les classements Google, les indicateurs d’engagement sont très probablement une corrélation et une causalité entre les parties.

Lorsque nous parlons de mesures d’engagement, nous entendons des données qui représentent la manière dont les chercheurs interagissent avec votre site à partir des résultats de recherche. Cela inclut des choses comme:

  • Clics (visites de recherche)
  • Temps passé sur la page (temps que le visiteur a passé sur une page avant de la quitter)
  • Taux de rebond (le pourcentage de toutes les sessions de site Web où les utilisateurs n’ont visionné qu’une seule page)
  • Pogo-sticking (cliquer sur un résultat organique puis revenir rapidement au SERP pour choisir un autre résultat)

De nombreux tests, y compris la propre enquête sur les facteurs de classement de Moz , ont montré que les métriques d’engagement sont en corrélation avec un classement plus élevé, mais le lien de causalité a été vivement débattu. Les bons indicateurs d’engagement sont-ils simplement une indication de sites hautement classés? Ou les sites sont-ils bien classés parce qu’ils possèdent de bons indicateurs d’engagement?

Ce que Google a dit

Bien qu’ils n’aient jamais utilisé le terme «signal de classement direct», Google a clairement indiqué qu’ils utilisaient absolument les données de clic pour modifier le SERP pour des requêtes particulières.

Selon Udi Manber , ancien responsable de la qualité de la recherche chez Google:

«Le classement lui-même est affecté par les données de clic. Si nous découvrons que pour une requête donnée, 80% des personnes cliquent sur le n ° 2 et 10% seulement sur le n ° 1, nous nous rendons compte qu’après un certain temps, le n ° 2 est probablement celui que les gens souhaitent, nous allons donc le changer.  »

Edmond Lau, un ancien ingénieur de Google, corrobore ce commentaire :

«Il est clair que tout moteur de recherche raisonnable utiliserait les données de clic sur ses propres résultats pour alimenter le classement afin d’améliorer la qualité des résultats de recherche. Les mécanismes réels de l’utilisation des données de clic sont souvent propriétaires, mais Google montre clairement qu’il utilise des données de clic avec ses brevets sur des systèmes tels que des éléments de contenu à ajustement en fonction du rang.  »

Étant donné que Google doit maintenir et améliorer la qualité des recherches, il semble inévitable que les indicateurs d’engagement soient plus qu’une corrélation, mais il semblerait que Google ne qualifie pas les indicateurs d’engagement de «signal de classement», ces indicateurs étant utilisés pour améliorer la qualité de la recherche. rang des URL individuelles est juste un sous-produit de cela.

Quels tests ont confirmé

Divers tests ont confirmé que Google ajusterait l’ordre des SERP en réponse à l’engagement du chercheur:

  • Le test réalisé en 2014 par Rand Fishkin a permis à un résultat n ° 7 d’atteindre le premier rang après que 200 personnes environ aient cliqué sur l’URL à partir du SERP. Fait intéressant, l’amélioration du classement semblait être isolée par rapport à l’emplacement des personnes qui ont visité le lien. La position de classement a grimpé aux États-Unis, où se trouvaient de nombreux participants, alors qu’elle est restée inférieure sur la page dans Google Canada, Google Australie, etc.
  • La comparaison des pages principales par Larry Kim et de leur temps de passage moyen avant et après RankBrain semble indiquer que la composante d’apprentissage automatique de l’algorithme de Google rétrograde la position de classement des pages sur lesquelles les utilisateurs passent moins de temps.
  • Les tests de Darren Shaw ont également montré l’impact du comportement des utilisateurs sur la recherche locale et les résultats des packs de cartes.

Étant donné que les métriques d’engagement des utilisateurs sont clairement utilisées pour ajuster la qualité des SERP et que les changements de position sont classés en tant que sous-produits, il est prudent de dire que les référenceurs doivent optimiser leur engagement . L’engagement ne modifie pas la qualité objective de votre page Web, mais plutôt votre valeur pour les chercheurs par rapport aux autres résultats de cette requête. C’est pourquoi, si aucune modification n’a été apportée à votre page ou à ses backlinks, le classement risque de diminuer si le comportement des internautes indique qu’ils préfèrent les autres pages.

En termes de classement des pages Web, les métriques d’engagement agissent comme un vérificateur de faits. Des facteurs objectifs, tels que les liens et le contenu, classent d’abord la page, puis les mesures d’engagement permettent à Google de s’ajuster s’il ne réussit pas.

L’évolution des résultats de recherche

À l’époque où les moteurs de recherche manquaient de la sophistication dont ils disposent aujourd’hui, le terme «10 liens bleus» a été inventé pour décrire la structure plate du SERP. Chaque fois qu’une recherche était effectuée, Google renvoyait une page contenant 10 résultats organiques, chacun dans le même format.

Dans ce paysage de recherche, occuper la première place était le Saint Graal de la SEO. Mais alors quelque chose est arrivé. Google a commencé à ajouter des résultats dans de nouveaux formats sur ses pages de résultats de recherche, appelées fonctionnalités SERP . Certaines de ces fonctionnalités SERP incluent:

  • Annonces payées
  • Extraits en vedette
  • Les gens demandent aussi des boîtes
  • Pack local (carte)
  • Panneau de connaissances
  • Liens annexes

Et Google en ajoute de nouveaux tout le temps. Ils ont même expérimenté des «SERP à résultat nul»,un phénomène dans lequel un seul résultat du graphe de connaissances était affiché sur le SERP sans aucun résultat en dessous, à l’exception d’une option permettant «d’afficher plus de résultats».

L’ajout de ces fonctionnalités a provoqué une certaine panique initiale pour deux raisons principales. En premier lieu, nombre de ces caractéristiques ont entraîné une réduction supplémentaire des résultats organiques sur le SERP. Un autre sous-produit est que moins de chercheurs cliquent sur les résultats organiques du fait que davantage de requêtes sont traitées sur le SERP lui-même.

Alors, pourquoi Google ferait-il cela? Tout cela remonte à l’expérience de recherche. Le comportement de l’utilisateur indique que certaines requêtes sont mieux satisfaites par différents formats de contenu. Notez que les différents types de fonctionnalités SERP correspondent aux différents types d’intention de requête.

Intention de la requête Fonction SERP possible déclenchée
Informatif Extrait sélectionné
Informationnel avec une réponse Connaissance graphique / réponse instantanée
Local Pack de cartes
Transactionnel Achats

Nous parlerons davantage de l’intention dans le chapitre 3 , mais pour le moment, il est important de savoir que les réponses peuvent être fournies aux chercheurs dans un large éventail de formats, et que la structure de votre contenu peut avoir une incidence sur le format dans lequel il apparaît dans la recherche.

6. Recherche localisée

Un moteur de recherche tel que Google possède son propre index exclusif de fiches d’entreprises locales, à partir duquel il crée des résultats de recherche locaux.

Si vous effectuez un travail de référencement local pour une entreprise disposant d’un emplacement physique que les clients peuvent visiter (ex: dentiste) ou pour une entreprise qui se rend chez leurs clients (ex: plombier), assurez-vous de réclamer, vérifier et optimiser une Liste Google My Businessgratuite .

En ce qui concerne les résultats de recherche localisés, Google utilise trois facteurs principaux pour déterminer le classement:

  1. Pertinence
  2. Distance
  3. Importance

Pertinence

La pertinence est la mesure dans laquelle une entreprise locale correspond à ce que le chercheur recherche. Pour vous assurer que l’entreprise fait tout ce qui est en son pouvoir pour intéresser les utilisateurs, veillez à ce que les informations de l’entreprise soient complètes et précises.

Distance

Google utilise votre géolocalisation pour mieux vous servir des résultats locaux. Les résultats de la recherche locale sont extrêmement sensibles à la proximité, ce qui correspond à l’emplacement du chercheur et / ou à l’emplacement spécifié dans la requête (si le chercheur en a inclus un).

Les résultats de recherche organiques sont sensibles à la localisation du chercheur, bien que rarement aussi prononcés que dans les résultats de packs locaux.

Importance

En mettant l’accent sur son importance, Google cherche à récompenser les entreprises bien connues dans le monde réel. Outre la visibilité hors ligne d’une entreprise, Google se base également sur certains facteurs en ligne pour déterminer le classement local, tels que:

Avis

Le nombre d’avis Google reçus par une entreprise locale et le sentiment de ces avis ont un impact notable sur leur capacité à se classer dans les résultats locaux.

Citations

Une « référence d’entreprise » est une référence Web à un « NAP » local (nom, adresse, numéro de téléphone) sur une plateforme localisée (Yelp, Acxiom, YP, Infogroup, Localeze, etc.) .

Les classements locaux sont influencés par le nombre et la cohérence des citations des entreprises locales. Google extrait des données d’une grande variété de sources pour constituer en permanence son index des entreprises locales. Lorsque Google trouve plusieurs références cohérentes au nom, au lieu et au numéro de téléphone d’une entreprise, cela renforce la « confiance » de Google dans la validité de ces données. Cela permet alors à Google de pouvoir montrer à l’entreprise avec un degré de confiance plus élevé. Google utilise également des informations provenant d’autres sources sur le Web, telles que des liens et des articles.

Classement bio

Les meilleures pratiques de référencement s’appliquent également au référencement local, car Google prend également en compte la position d’un site Web dans les résultats de recherche organiques lors de la détermination du classement local.

Dans le chapitre suivant, vous découvrirez les meilleures pratiques sur la page qui aideront Google et les utilisateurs à mieux comprendre votre contenu.

Sans doute maintenant plus que jamais, les résultats locaux sont influencés par les données du monde réel. Cette interactivité est la manière dont les chercheurs interagissent avec les entreprises locales et y répondent, plutôt que des informations purement statiques (et jouables) telles que des liens et des citations.

Étant donné que Google souhaite proposer aux chercheurs les entreprises locales les plus pertinentes et les plus pertinentes, il est donc tout à fait judicieux pour eux d’utiliser des mesures d’engagement en temps réel pour déterminer la qualité et la pertinence.

Vous n’avez pas besoin de connaître les tenants et les aboutissants de l’algorithme de Google (cela reste un mystère!), Mais vous devez désormais disposer d’une excellente base de connaissances sur la manière dont le moteur de recherche trouve, interprète, stocke et classe le contenu. Forts de cette connaissance, apprenons à choisir les mots-clés que votre contenu ciblera au chapitre 3 (Recherche de mots-clés) !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous aimerez sans doute les articles suivants

Parlez-nous de vos projets

Audit Gratuit de Site Web