Le travail d’un consultant en optimisation de moteur de recherche (SEO) s’articule autour d’un thème central:

Les données.

Surtout des données de mots clés.

Nous les collectons à partir d’une variété de sources tierces et tierces, peut-être même via des outils de suivi auto-fabriqués, pour ensuite commencer à chiffrer les chiffres et éventuellement fournir des informations précieuses à nos patrons, clients ou prospects.

Cependant, ne faire fonctionner que quelques outils et utiliser de la magie analytique ne suffira pas.

Nous devons également réfléchir à la façon dont nous interprétons les données des outils de mots clés et traitons les inexactitudes ou les incohérences.

Comme tout logiciel, chaque outil de mot-clé a un mécanisme caractéristique en place pour collecter, agréger et manipuler les données.

De même, le fonctionnement des outils affecte la façon dont ils gèrent les requêtes et présentent les données des mots clés en sortie.

Un élément essentiel de la fonction d’un responsable marketing consiste à valider si les valeurs de données stockées pour ces mots clés sont représentées sous une forme cohérente et non ambiguë.

Autrement dit, les données de mots clés avec lesquelles je travaille sont-elles exactes?

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

La réponse simple:

Non.

La comparaison des valeurs de données de différents fournisseurs d’outils pour un ensemble de mots clés s’avère déjà contenir de grandes incohérences – non seulement dans les valeurs de données, mais aussi dans si et comment vos données de sortie sont présentées.

Cette étude, par mon entreprise, OAK, tente de trouver de la clarté en explorant l’exactitude et la fiabilité des données en ce qui concerne les données de mot-clé de second et de tiers.

Plus précisément, cette étude examine les sujets suivants:

  • Collecte de données: Comment les outils de mots clés collectent-ils leurs données?
  • Le traitement des données: Comment les outils de mots clés manipulent-ils les données?
  • La validation des données: Validation des valeurs des données de mots clés.
  • Rôle en tant que consultant SEO.

Le but principal de cette étude est de faire prendre conscience de la complexité des valeurs des données de mots clés et des mécanismes de collecte et de traitement des données des fournisseurs d’outils.

Google Search Console

Commençons par le début: Google Search Console.

Il s’agit d’un outil tiers de Google qui collecte des données comportementales pour un seul domaine ou entité et, après manipulation, injecte les données dans l’interface frontale.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Le simple fait que Google recueille et traite les données pourrait vous poser la question: dans quelle mesure les valeurs des données projetées sont-elles proches de la réalité?

Cette question pose un défi immédiat: les données de la Search Console ne sont pas 100% validables.

Heureusement, Google est, jusqu’à un certain point, transparent et fournit diverses explications pour lesquelles vos valeurs de données ne reflètent pas la réalité ou s’additionnent comme vous pouvez vous y attendre.

En voici quelques-uns:

  • Pour protéger la vie privée de l’utilisateur. Le clic n’est parfois pas crédité au terme de recherche. La Search Console, cependant, enregistre le clic, provoquant des écarts entre les données du tableau et du diagramme.
    • La même chose peut s’appliquer aux requêtes de marque.
  • Les clics peuvent provenir de robots.
  • Dans certains cas, la sélection de certaines combinaisons de filtres peut également entraîner des différences entre les données du diagramme et du tableau.

Malheureusement, seul le G-géant a accès aux valeurs exactes des données, ce qui signifie que la vérification de l’exactitude des données de la Search Console est un processus difficile.

La fiabilité des données de mots clés augmente cependant avec les outils tiers.

Ce sont des outils comme SEMrush, Ahrefs, Keywordtool.io, Searchvolume.io et bien d’autres.

Pour trouver des réponses, cette étude explore la mécanique de ces outils de mots clés applicables.

Malheureusement, les entreprises qui exécutent ces outils ne divulguent pas ou peu d’informations sur la façon dont elles collectent, agrègent ou manipulent leurs données.

Cela semble juste.

Un chef ne se contente pas de donner sa recette mondialement connue. Par conséquent, nous essayons de générer des informations à l’aide des approches suivantes:

  • Utilisation et comparaison des outils.
  • Renseignement auprès des services clients.
  • Lire les sections FAQ et les pages utilitaires.

1. Collecte de données: comment les mots-clés collectent-ils leurs données?

En général, il existe cinq types de ressources grâce auxquelles les outils de mots-clés accumulent leurs données:

API Google Ads / Planificateur de mots clés

Les données sur les mots clés sont collectées directement à partir de la base de données de mots clés de Google via l’API Google Ads.

Comme c’est le cas avec Search Console, Google Ads manipule d’abord les données avant de les injecter dans la base de données.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Clickstream Data par les agrégateurs et les courtiers de données

Clickstream n’est rien de plus que des données dérivées du comportement de navigation en ligne des consommateurs.

Les agrégateurs rassemblent ces données de différentes manières.

Les grands agrégateurs, jusqu’à récemment actifs, étaient, par exemple, Jumpshot ou Hitwise.

D’où obtiennent-ils leurs données?

  • Extensions et plugins du navigateur
    • Un plugin ou une extension maison de l’agrégateur lui-même.
    • Ils paient des plugins de navigateur tiers externes pour partager les données des consommateurs
  • Ils paient les fournisseurs de services Internet pour l’accès aux données dans un flux de données «anonymisé».

Les agrégateurs vendent ensuite les données à des outils de mots clés tels que Ahrefs, SEMrush et Moz, entre autres.

Extension de navigateur et plugins

Les outils de mots clés peuvent également acquérir directement les données des consommateurs à partir de plugins de navigateur tiers externes.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

De nombreuses extensions de navigateur ont été développées pour aider les marketeurs.

Malgré les fonctionnalités astucieuses, ces plugins et outils de navigation poursuivent souvent des pratiques louches.

Il est courant de donner son consentement avant d’utiliser une extension, mais nous avons généralement une connaissance limitée des pratiques auxquelles nous donnons notre consentement.

En consentant, vous pouvez autoriser ces outils à:

  • Recueillez votre comportement de navigation en ligne.
  • Récupérez les données client de Google Analytics, de la Search Console ou d’un autre logiciel de suivi.

Et le plus inquiétant:

  • Partagez les données avec des tiers tels que des agrégateurs ou des outils de mots clés.

Ces extensions de navigateur peuvent avoir accès à toutes les données potentiellement sensibles et ne sont généralement pas conformes au RGPD de votre client ou de votre entreprise.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Faire preuve de prudence lorsque vous travaillez avec des extensions est nécessaire pour garantir la sécurité des données.

Certains outils de mots clés ont également développé leur propre plugin ou extension de navigateur.

Moz, par exemple, a présenté MozBar, une extension tout-en-un avec toutes sortes de fonctionnalités utiles.

Les plug-ins de navigateur développés par les outils de mots-clés établis ne poursuivraient probablement aucune pratique malveillante, mais ils peuvent collecter des comportements en ligne et les utiliser pour ajuster leurs valeurs de données.

Outils externes

Les outils de mots clés récupèrent également des données via des API auprès de parties externes qui collectent des données de comportement de navigation en ligne, telles que GrepWords dans le passé.

Keywordtool.io, par exemple, obtient des données de Keyword Planner mais également d’autres sources tierces. Ils dévoilent quelques conseils, quoique assez généraux:

« Keyword Tool fournit une API externe qui vous donne les suggestions de mots clés que vous ne pourriez jamais trouver dans Google Ads. Le Générateur de mots clés utilise des données de saisie semi-automatique tandis que Google Ads cache des mots clés précieux qui pourraient être trouvés à l’aide de la saisie semi-automatique. « 

Propres outils

Certains outils de mots clés ont à la place leurs propres programmes ou logiciels configurés pour accumuler des données de mots clés.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Ces cinq méthodes de collecte et exemples ne dévoilent que la pointe de l’iceberg.

Il existe un vaste réseau d’entreprises et d’outils dans ce monde de collecte, d’échange et de vente de données de mots clés.

Au moins une meilleure compréhension de l’image nous aidera sans aucun doute à réaliser que les données de mots clés affichées sur nos outils de référencement, Google Sheets et tableaux de bord sont à peine plus qu’un produit d’une construction ambiguë.

Pour résumer

Les outils de mots clés collectent des données à partir de cinq types de sources différents.

Il est courant d’utiliser plusieurs sources de données provenant de différents types de sources de données.

2. Traitement des données: comment les outils de mots-clés manipulent-ils les données?

La prochaine étape pour adopter une position plus critique vis-à-vis des données de mots clés consiste à découvrir comment les outils agrègent et manipulent les données qu’ils ont obtenues.

Il est presque impossible de savoir exactement comment les outils exécutent cette procédure.

La pratique consistant à obtenir ces informations exclusives équivaut à tenter de découvrir la recette de Coca Cola – futile.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Au lieu de cela, contentons-nous de l’idée que l’agrégation en elle-même peut encore altérer l’exactitude et la fiabilité des données.

On pourrait soutenir l’inverse que l’agrégation de données peut automatiquement aplatir toutes les valeurs de données extrêmes.

Après tout, la fusion de ces sources de données en un seul type agrégé cohérent donnera une meilleure approximation des valeurs métriques moyennes.

Même s’il s’agit d’une position légitime, les outils de mots clés collectent néanmoins des données à partir de ressources qui en elles-mêmes peuvent être incalculables, biaisées et incorrectes dans leurs mécanismes de mesure.

Quoi qu’il en soit, les outils de mots clés font plus que mélanger différentes sources de données en un seul ensemble de données.

Représentation schématique du fonctionnement des outils de mots-clés dans la collecte, la manipulation et l’interrogation des données.

Exécution des données via un algorithme

Certains outils ont développé un algorithme qui fonctionne comme un filtre pour leurs données collectées.

Par exemple, SEMrush explique:

«Pour garantir le plus haut niveau de précision, SEMrush utilise son réseau neuronal – un algorithme combiné qui référence diverses sources de données et reconnaît les modèles de la même manière que le cerveau humain comprend les modèles. Les sources de données de notre réseau comprennent des données de clics en plus de notre propre base de données de backlinks et de positions de moteurs de recherche organiques. « 

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Il semble logique que SEMrush utilise son algorithme pour valider les données externes obtenues et ajuster les valeurs métriques agrégées si nécessaire.

(dé) Groupement

Les outils de mots clés peuvent regrouper les données de mots clés, qui se déroulent de deux manières différentes:

  • Ils regroupent les valeurs métriques des variations des termes de recherche en une seule.
  • Ils regroupent les variations des termes de recherche en un seul.

Ce mécanisme de regroupement repose sur quatre déterminants linguistiques:

  • Pluriel ou singulier dans le mot-clé.
  • Combinaisons d’articles et de prépositions.
  • Utilisation d’adjectifs réguliers, comparatifs et superlatifs.
  • Placement d’adjectifs ou de pronoms interrogatifs.

Regroupement de volumes

Commençons par un exemple.

Nous avons deux termes de recherche différents, «poignées de porte» et «poignée de porte».

Certains outils, qu’il s’agisse d’outils de mots clés, d’agrégateurs ou d’autres outils de collecte de données, fusionnent les valeurs de volume individuelles en un total agrégé et affichent ce total pour les deux mots clés.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Par exemple, keywordtool.io regroupe le mot clé, contrairement à searchvolume.io.

Voilà à quoi cela ressemble pour les États-Unis:

Deux choses ressortent immédiatement:

  • Keywordtool.io attribue la même valeur de volume aux deux mots clés (pluriel et singulier), contrairement à searchvolume.io.
  • Les valeurs de volume de Searchvolume.io sont nettement inférieures à celles de keywordtool.io.

Jetons également un œil à Ahrefs.

Ahrefs collecte ses données auprès de Keyword Planner, entre autres sources.

Selon le service client, Ahrefs dissocie les mots clés que Keyword Planner regroupe.

Le tableau suivant est similaire au précédent, mais cette fois nous avons inclus des données d’Ahrefs et tiré la même requête pour un autre pays.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Deux choses ressortent:

  • Les valeurs de données Ahrefs révèlent des valeurs de volume différentes par rapport à keywordtool.io et searchvolume.io.
  • Aux Pays-Bas, Ahrefs attribue une valeur plus élevée à la forme singulière «poignée de porte» par rapport au type pluriel «poignées de porte». Il est diamétralement opposé aux valeurs de Searchvolume.io.
    • Cependant, pour les États-Unis, Searchvolume.io et Ahrefs présentent la même distribution équilatérale.

Les tentatives de requête avec d’autres ensembles de mots clés nous donnent des résultats similaires. Dans certains cas, l’outil X présente les valeurs les plus importantes, dans d’autres cas, l’outil Y ou Z.

Une chose est sûre: les valeurs des données sont dispersées, remettant en question la fiabilité des valeurs des données.

Le tableau suivant répertorie un ensemble d’outils de mots clés populaires et indique s’ils regroupent ou non les volumes de mots clés:

Regroupement de mots clés

Outre le regroupement des volumes, l’effet de regroupement s’applique également aux termes de recherche.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Le premier déterminant linguistique du regroupement de mots clés est l’utilisation singulière et plurielle des noms.

Singulier contre pluriel

Les outils de mots-clés peuvent regrouper les noms au singulier ou au pluriel.

Cependant, cela ne signifie pas nécessairement que l’autre version, qu’elle soit au singulier ou au pluriel, n’existe pas dans la base de données de l’outil.

Les outils choisissent le formulaire à afficher dans la sortie.

Nous allons illustrer avec l’outil de planification des mots clés.

Supposons que nous voulons récupérer le volume de recherche aux États-Unis des quatre prochains mots clés.

Ensuite, nous choisissons l’onglet Mesures historiques montrant le tableau de données suivant:

Deux choses qui ressortent immédiatement:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

  • Le planificateur de mots clés renvoie uniquement les données de deux mots clés sur quatre.
  • Le planificateur de mots clés renvoie uniquement la forme singulière des noms.

Lorsque nous répétons cette requête pour d’autres pays, nous ne pouvons observer aucun modèle logique entre la requête et les données présentées.

Par exemple, pour les Pays-Bas, l’outil de planification des mots clés sert le tableau suivant:

Pour ceux qui ont une compréhension limitée de la langue néerlandaise:

  • «Deurklinken» (c’est-à-dire «poignées de porte») est pluriel.
  • «Deurpost» (c’est-à-dire «encadrement de porte») est singulier.

Le Planificateur de mots clés regroupe ainsi en fonction des volumes ainsi que des mots clés.

En examinant à la fois les États-Unis et les Pays-Bas, nous pouvons en déduire que la base de données de Keyword Planner contient les valeurs de données à la fois au singulier et au pluriel.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Pour être sûr, réexécutons la requête.

Seulement cette fois pour les États-Unis et avec les formes plurielles des noms:

  • « poignées de porte »
  • « Cadres de porte »

Les resultats:

Bien que l’outil de planification des mots clés omet le nom au pluriel ou au singulier dans l’exportation, sa base de données inclut des données sur les quatre mots clés.

En outre, les valeurs de volume des mots clés reflètent les volumes agrégés à la fois au pluriel et au singulier.

De même, il ne semble pas que le planificateur de mots clés décide quel formulaire afficher autre qu’un motif arbitraire.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

On peut approfondir ce sujet en comparant, par exemple, plusieurs pays, industries, plages de volumes et langues.

Une exploration plus approfondie, cependant, dépasse le cadre de cette étude.

Le fait est toujours que cela crée beaucoup de confusion.

Combinaisons d’articles et de prépositions

Les outils regroupent les mots clés dans les cas où les termes de recherche comprennent des articles et / ou des prépositions.

Pour illustrer, nous fournissons un exemple de Keywordtool.io.

Nous avons compilé une liste de huit mots-clés à extraire de la base de données de Keywordtool.io:

  • «Législation aux états-unis»
  • «Législation aux états-unis»
  • «Législation aux états-unis»
  • “Législation états-unis”
  • «Législation aux états-unis»
  • «La législation en nous»
  • «Législation nous»
  • «Législation nous»

Pour le lecteur remarquable, la liste est la suivante:

  • Nous avons utilisé deux façons d’écrire les États-Unis: «États-Unis» ou «États-Unis».
  • Nous avons créé quatre combinaisons de l’article «le» et de la préposition «dans».
    • « Dans le »
    • « Le »
    • « Dans »
    • – (Donc ni «le» ni «en»)

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

L’interrogation des données de la base de données de Keywordtool.io nous donne les données suivantes:

Plusieurs choses ressortent:

  • La requête affiche des résultats pour seulement cinq des 10 mots clés. Il ne semble pas y avoir de facteur évident qui affecte de manière décisive cette sortie particulière. Les mots clés exclus:
    • «Législation aux états-unis»
    • «Législation aux états-unis»
    • «Législation nous»
  • Des mots clés avec à la fois la forme écrite «États-Unis» et l’abréviation «États-Unis» sont présentés, mais, manifestement pas pour la même variation d’articles et de prépositions:
    • Listé: «la législation en nous»
    • Non répertorié: «législation aux États-Unis»
  • La combinaison sans l’article et la préposition est donnée pour la variante «US» et «United States». Pourtant, les deux affichent d’autres valeurs de volume:
    • «Législation des états-unis» – 210
    • «Nous légiférer» – 40
  • Le regroupement des volumes a lieu «cross-keyword». Les variantes de «US» et «United States» ainsi que les variantes de préposition et d’article présentent les mêmes valeurs métriques. Cela signifie que keywordtool.io regroupe les valeurs de volume des mots clés suivants:
    • «La législation en nous»
    • «Législation nous»
    • «Législation aux états-unis»
    • «Législation aux états-unis»

Questions pertinentes qui vous viennent à l’esprit:

  • Pourquoi la combinaison «législation États-Unis» échappe-t-elle au clustering?
  • Dans quelle mesure les articles et les prépositions jouent-ils un rôle dans le regroupement des mots clés?
  • Comment se fait-il que les quatre mots clés non groupés particuliers affichent des valeurs de volume en cluster?
  • Existe-t-il un mécanisme précis et explicite qui réglemente la présentation des données interrogées?

Ce sont des questions légitimes auxquelles nous n’avons malheureusement pas de réponse fondée.

Keywordtool.io utilise l’API Google Ads pour récupérer les données des mots clés.

Peut-on alors s’attendre également à ce que cela se produise avec l’outil de planification des mots clés?

Nous l’avons testé en exécutant la même requête pour l’outil de planification des mots clés:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Cela produit un scénario assez différent.

Outre les observations précédentes, nous pouvons également observer que l’outil de planification des mots clés ne répertorie que quatre des huit mots clés.

De plus, les valeurs ne sont données que pour deux des quatre mots clés.

Utilisation d’adjectifs réguliers, comparatifs et superlatifs

Les adjectifs ou pronoms interrogatifs et les adjectifs comparatifs et superlatifs jouent un rôle dans les mécanismes de regroupement des outils.

Au début, cela pourrait ne pas sembler si grave. Par exemple, si nous recherchons «hôtels propres Londres» ou «hôtels les plus propres Londres», l’intention et les résultats SERP correspondants sont tous deux assez similaires.

Dans d’autres cas, cependant, les besoins et les intentions des visiteurs diffèrent profondément. Examinons les trois mots clés suivants:

  • «Hypotension artérielle» – J’ai une hypotension artérielle et j’aimerais avoir des informations sur les niveaux de pression artérielle considérés comme faibles et peut-être que faire à ce sujet.
  • «Baisse de la pression artérielle» – J’ai une pression artérielle élevée et j’aimerais avoir des informations sur la façon de réduire ma tension artérielle.
  • «Pression artérielle la plus basse» – je me sens probablement très mal et j’aimerais savoir quels niveaux de pression artérielle on peut avoir sans que cela ne mette la vie en danger.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

En regardant l’exemple, nous pouvons voir des différences dans:

  • Public.
  • État de santé du public.
  • Besoins informationnels.

Cet exemple met en évidence le fait évident que nous ne devons pas remédier à ces différences avec le même contenu, ni regrouper ces trois mots clés dans un ensemble de rubriques.

Que se passe-t-il si nous extrayons des données des mots clés pour ces termes de recherche particuliers?

Leur insertion dans Keywordtool.io entraîne les résultats suivants pour le Royaume-Uni:

C’est assez clair: toutes les statistiques présentées partagent la même valeur.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Avant de tirer des conclusions, couvrons d’abord le déterminant final.

Placement d’adjectifs ou de pronoms interrogatifs

Le placement variable d’adjectifs ou de pronoms interrogatifs constitue le dernier déterminant linguistique du mécanisme de groupement.

Cela n’arrive pas trop souvent, mais parfois nous plaçons des adjectifs ou des pronoms interrogatifs au milieu ou à la fin d’une phrase au lieu du début.

Par exemple, on peut rechercher:

  • «Scooter électrique rapide» ou «scooter électrique rapide»
  • « À quelle vitesse scooter électrique » ou « scooter électrique à quelle vitesse »

Les deux cas ont le même besoin d’information.

Cela devient plutôt intéressant lorsque nous ajoutons des adjectifs comparatifs ou superlatifs à ces exemples et créons de nouvelles combinaisons telles que «scooter électrique plus rapide».

Le fait est que les différences dans les pronoms interrogatifs ou les adjectifs comparatifs et superlatifs peuvent présenter des divergences dans l’intention et les besoins des utilisateurs, et le type de public auquel appartiennent les utilisateurs, comme l’illustre le tableau suivant:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Malheureusement, ces informations latentes sont difficiles à obtenir à partir de la sortie de requête de ces outils tiers, en particulier lorsque le regroupement est en cours.

Le tableau suivant de keywordtool.io illustre ceci:

Sans surprise, le volume reflète des valeurs agrégées.

Le lecteur remarquable remarque que le tableau répertorie simplement les mots clés au singulier.

La conversion du singulier au pluriel nous donne les données suivantes fournies par keywordtool.io:

Pour des raisons d’exactitude et de fiabilité des données, l’action immédiate consiste ici à valider, dans la mesure du possible, les valeurs de volume attribuées à chaque mot clé.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Pour ce faire, vous pouvez interroger les quatre mêmes mots clés dans d’autres outils de mots clés.

D’autres outils entraînent des résultats différents. Par exemple, SEMrush n’affiche aucun résultat et l’outil de planification des mots clés était similaire à Keywordtool.io.

Ahrefs et Searchvolume.io ont présenté des données pour toutes les variations et, encore plus intéressant, avec des valeurs de volume disproportionnellement plus petites.

Par exemple, la requête pour le Royaume-Uni dans Searchvolume.io invite ce tableau de données:

C’est une différence stupéfiante de 70 fois la différence de 310.

Il est vrai que la valeur de volume de 3,600 reflète déjà le volume agrégé pour l’ensemble de six mots clés.

Mais malheureusement, il arrive trop souvent que les spécialistes du marketing enregistrent les six, voire plus, variations dans l’analyse des mots clés.

Nous pouvons proposer l’idée de choisir une variante et d’omettre les autres combinaisons. Mais cela ne résoudra pas le problème.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Les informations intégrées dans les variantes de mots clés concernant les intentions et les besoins des utilisateurs peuvent simplement différer, et donc toute forme est pertinente à inclure.

Imaginez négliger un tel détail, ne voyant pas que chaque mot-clé appartient potentiellement à différents groupes de mots-clés destinés à différentes pages.

Et baser votre trafic et vos projections financières sur ces chiffres.

C’est une image convaincante, quoique un peu amateur. Néanmoins, quelque chose qui se produit fréquemment.

Il reste une observation sans surveillance.

Keywordtool.io présente des valeurs de volume disproportionnellement plus élevées par rapport à, par exemple, Ahrefs.

Malgré eux, les deux récupèrent les données de mots clés à partir de l’outil de planification des mots clés.

Hormis les systèmes de traitement des données des outils, qu’est-ce qui pourrait provoquer une telle différence?

Fautes d’orthographe

Les outils de mots clés diffèrent dans la façon dont ils traitent les fautes d’orthographe.

Certains, comme Searchvolume.io, omettent toute variante d’erreur d’orthographe dans la sortie de votre requête.

D’autres, comme Ahrefs et Keywordtool.io, incluent des variantes d’erreurs d’orthographe.

Ils affichent tous les deux les valeurs des données pour chaque mot clé de votre requête tant que la variation orthographique correcte du mot clé existe dans sa base de données.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Mais comme Ahrefs dissocie les données de mots clés provenant de l’API Google Ads, il attribue des valeurs de mesure uniques à chaque variante d’erreur d’orthographe.

Keywordtool.io, d’autre part, adopte les mots-clés groupés et les valeurs de mesure qu’il récupère à partir de Keyword Planner, provoquant toutes les variantes d’erreur d’orthographe à afficher des mesures identiques.

Les fautes d’orthographe se produisent souvent avec des noms de marque facilement susceptibles d’être mal orthographiés.

Pensez à des marques telles que Audemars Piguet, Breguet, Douwe Egberts, Schwarzkopf.

Jetons un œil à «Douwe Egberts».

Je suis hollandais, et en tant que natif, je connais les variétés d’erreurs que l’on peut commettre.

Par exemple:

  • Douwe est-il avec ou ou au?
  • Egberts est-il avec g ou ch ou même avec gh?
  • Est-ce Egbert ou Egberts?

Le point est: que se passe-t-il lorsque nous interrogeons une liste d’un seul mot clé mal orthographié de 26 façons différentes?

Malgré les mécanismes de regroupement en place, Keywordtool.io vous sert chaque combinaison unique de mots clés mal orthographiés:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

La situation d’Ahrefs est un peu différente. La sortie de la requête est la suivante:

Des choses qui se démarquent:

  • La requête exclut 6 des 26 mots clés.
  • Ahrefs semble attribuer indépendamment des valeurs de données par métrique.
    • À l’exception du premier résultat, qui est la variation orthographique correcte, toutes les autres variantes de mots clés ont une ou plusieurs valeurs de données de mesure manquantes.

Gardez à l’esprit que cela ne fonctionne qu’avec le mode «liste». La fonction «explorer» ne servira que la variation orthographique correcte.

Omettre les données «PPP»

L’API Google Ads omet les données de mots clés impliquant des sujets « PPP ».

Cela signifie que d’autres outils récupérant des données à partir de l’outil de planification des mots clés sont également confrontés à cette limitation, sauf s’ils enrichissent leur base de données avec des données provenant d’autres sources.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Pour des raisons de sécurité, Google interdit les outils de mots clés pour récupérer les données de mots clés concernant le porno, les pilules et le poker.

Pensez à des mots clés comme «cannabis» ou «full house» mais aussi à des mots clés tels que «Koffiemachine huren».

«Huren» est le néerlandais pour la location. Mais cela signifie aussi «putes» en allemand.

Bien que cette décision ne soit pas une question de manipulation directe, elle complique la collecte et l’analyse des données des spécialistes du marketing.

Une sélection d’outils de mots clés et s’ils fournissent des données «PPP» pour votre requête:

Les exemples ci-dessus illustrent la nature chaotique des mécanismes des mots-clés et les dangers qu’ils imposent au travail des consultants SEO.

Pour résumer

  • Les outils de mots clés n’affichent pas nécessairement toutes les variantes de mots clés et les valeurs de mesure correspondantes.
    • Déterminants potentiels: fonctionnalité de l’outil, mesures de sûreté ou de sécurité ou données manquantes dans la base de données.
  • À notre connaissance en tant qu’étrangers, il semble que l’affichage particulier de combinaisons de mots clés et de variations de valeurs métriques soit «choisi» au hasard.
  • Le regroupement s’applique à la fois aux valeurs numériques et aux termes de recherche.
  • Déterminants linguistiques du regroupement de mots clés:
    • Pluriel vs singulier.
    • Utilisation ou non-utilisation d’articles et de prépositions.
    • Placement d’adjectifs ou de pronoms interrogatifs.
    • Utilisation d’adjectif comparatif et superlatif.
  • Le regroupement se produit à la fois au sein d’un groupe particulier et entre les variations de groupe.
  • Le regroupement se produit au hasard.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

3. Validation des données: validation des valeurs de données des mots clés

La validation des données des mots clés est possible, mais sans accès à des données non corrompues, elle devient un acte de recherche de l’approximation la plus proche des valeurs de données réelles du mot clé.

Une option consiste à comparer les valeurs des données d’impression des mots clés de la Search Console aux valeurs de volume des outils de mots clés tiers.

Les données de la Search Console ne sont pas fiables à 100% non plus, mais elles sont aussi proches que possible.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Au début de 2020, nous avons conçu une étude pour déterminer l’exactitude des données de mots clés avec un ensemble de 160 mots clés provenant d’une variété d’industries.

L’étude a abordé ces deux questions:

  • Pour chaque outil de mots clés, quel est l’écart moyen en% des valeurs de volume de mots clés pour l’ensemble des mots clés par rapport aux valeurs de données d’impression de la Search Console?
  • Pour chaque outil de mots clés, quelle est la variance de tous les écarts% pour l’ensemble des mots clés?

Le premier nous donne un aperçu du degré de précision de la valeur de volume d’un mot clé donné.

Cette dernière question détermine dans quelle mesure l’écart en% de chaque mot clé est réparti par rapport à la valeur moyenne de l’écart.

Comme les valeurs peuvent à la fois dévier négativement et positivement, il ne suffit pas de simplement montrer l’écart moyen en%.

Cependant, c’est la combinaison des deux scores qui donne les meilleurs résultats pour déterminer l’exactitude et la fiabilité des valeurs des données.

Comme ces visualisations l’illustrent, nous voyons que regarder exclusivement la variance ou les écarts moyens peut entraîner une représentation erronée de la situation:

La mesure de la variance du pourcentage moyen d’écart nous permet de déterminer la dispersion du pourcentage d’écart de chaque mot clé.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

De grandes dispersions suggèrent une moindre précision et donc la fiabilité des valeurs de volume des mots clés.

En d’autres termes, plus la variance est importante, plus la probabilité de sélectionner un mot-clé dans l’ensemble de données présentant une valeur de volume plus imprécise que l’écart de valeur de volume moyen est élevée.

Ce sont les principales conclusions:

  • Les données de volume de Twinwords ont montré l’écart moyen positif le plus important par rapport aux impressions de la Search Console: + 37,13%.
  • Les données de volume Searchvolume.io ont montré l’écart moyen négatif le plus important par rapport aux impressions de la Search Console: -34,71%.
  • Les pionniers avec la plus grande variance
    • Mots-clés: 5 259
    • Keywordtool.io: 5 256
    • Planificateur de mots clés: 5 188
  • Les pionniers avec la plus petite variance
    • Serpstat: 0,124
    • Searchvolume.io: 0,149
    • Ahrefs: 0,153

Idéalement, les fournisseurs d’outils affichent des nombres proches de zéro pour l’écart moyen et la variance de l’écart moyen.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Ces résultats montrent le contraire. Plus précisément:

  • L’effet de regroupement entraîne la grande variance et le score d’écart moyen des premiers.
    • Keywordtool.io et Twinword obtiennent leurs données directement de Google. Et puisque Google Ads applique le regroupement aux valeurs des mots clés et des données, Twinword et Keywordtool.io adoptent automatiquement cet effet.
  • Les mots clés présentant les écarts de valeur de données les plus importants semblaient également être des mots clés avec des valeurs de données groupées.
  • Serpstat, Ahrefs et Searchvolume.io présentent des nombres de variance proches de zéro. Ces outils n’appliquent aucun clustering.
  • Serpstat et Searchvolume.io affichent des écarts moyens considérablement inférieurs. Cela suggère que les données de volume sont en moyenne inférieures à ce que vous attendez selon la Search Console.
  • Bien que les valeurs de volume des mots clés de Searchmetrics diffèrent à peine en moyenne des valeurs d’impression de la Search Console, les valeurs de données individuelles sont encore plus éloignées de la moyenne, ce qui suggère un degré plus élevé d’incohérence dans les valeurs des données de mots clés.
  • Les nombres d’Ahrefs et de KWFinder présentent l’approximation la plus proche des valeurs de données réelles du mot clé.

Les valeurs de données des outils de mots clés tiers varient considérablement et semblent ne pas fournir d’ambiguïté ou de cohérence.

Les résultats donnent en outre la plausibilité à l’idée que les mécanismes de traitement des requêtes de données et de collecte ou de manipulation des données peuvent contribuer à fournir des données de mots clés erronées.

Pouvons-nous alors valider la précision des données de mots-clés d’une autre manière?

En collaboration avec Sander Tamaëla, un expert SEO néerlandais indépendant, nous avons trouvé un moyen de valider l’exactitude des valeurs de volume de mots clés tiers à l’aide de la Google Search Console et des données de Google Trends.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

L’idée était la suivante:

  • Nous avons choisi un nom et sélectionné à la fois le pluriel et le singulier.
    • Nous avions validé l’exactitude des volumes de recherche avec les valeurs d’impression mensuelles moyennes de la CGC.
  • Ensuite, nous avons récupéré les données de volume à partir de deux ou trois outils de mots clés aléatoires.
  • Nous avons ensuite placé ces deux mots clés dans Google Trends.

Avec cette configuration, nous pourrions déterminer l’intérêt relatif entre les deux mots clés.

Notre hypothèse ici était que les scores d’intérêt relatif de Google Trends reflètent les valeurs de données les plus pures.

En tant que tel, le score d’intérêt relatif doit refléter un ratio similaire à celui des valeurs d’impression dans la Search Console.

  • Ensuite, nous avons élargi l’ensemble avec des mots clés – pour lesquels nous savons que nous avons une approximation précise de la valeur d’impression – à partir de plusieurs plages de volumes.
  • Ensuite, nous avons compilé un ensemble de formation.

L’idée était de déterminer par plage de volume l’écart par valeur de volume de mot clé en fonction des scores d’intérêt relatifs de Google Trends.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Malheureusement, les choses ne se sont pas déroulées comme prévu.

Après avoir contesté l’hypothèse selon laquelle les données de Google Trends représentaient des valeurs précises, nous avons découvert que Google Trends n’était pas non plus entièrement fiable.

Pour tester la fiabilité de Google Trends, nous avons configuré le test suivant:

  • Nous avons sélectionné cinq mots clés avec des valeurs d’impression mensuelles très similaires dans la Search Console.
  • Nous avons ensuite ajouté ces cinq mots clés dans Google Trends.
    • Nous nous sommes assurés d’avoir choisi la même période de 12 mois pour Search Console que pour Google Trends: du 1er décembre 2018 au 30 novembre 2019.

L’un des ensembles de cinq mots-clés, en néerlandais:

Le graphique suivant illustre l’écart de la valeur d’impression de chaque mot clé par rapport à la moyenne:

L’écart moyen des impressions mensuelles en pourcentage n’était que de 1,92%.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Malheureusement, il est uniquement possible de sélectionner jusqu’à cinq mots clés dans Google Trends, ce qui limite notre échantillon à cinq mots clés.

Une telle taille d’échantillon n’est statistiquement pas une représentation significative de la population. La seule alternative était de répéter la configuration du test avec différents ensembles de mots clés.

If Google Trends is reliable, we would have expected that the average interest ratio between the keywords in Google Trends is virtually the same.

What was the result?

For those five keywords, we observed ratio levels of relative interest score that were varying disproportionally:

Google Trends’ average interest scores:

The ratio of three out of five corresponds to the ratio of Search Console impressions.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

But the remaining two keywords differ significantly, with an average deviation in percentages of 31,57%.

Again, with a sample size of five, the average deviation output is not significant.

But by repeatedly testing the setup for different keyword sets, we observed a similar pattern.

Two other examples of Google Trends’ relative interest scores for five-keyword sets:

To put in perspective, the ratio average deviation percentages of Search Console are respectively 2.73% and 1.62%.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Google Trends’ average deviations thus show significantly larger percentages than those for Search Console’s impression value ratios.

Can we then draw any conclusions here?

As outlined in the beginning, Search Console isn’t always showing the most accurate representation of reality.

However, the designed setup to test Google Trends’ data accuracy and reliability provided evidence suggesting that data from Google Trends isn’t consistent or unambiguous either.

Does this mean that we can no longer use these tools? Or perhaps only some?

Not necessarily.

But, it doesn’t hurt to be aware of the demerits from keyword tools.

4. Role as an SEO Consultant

The primary purpose of this study is to grow awareness about the complexity surrounding the data values of keyword tools.

The next step after awareness is to incorporate critical thinking allowing us to recognize any faulty habits.

Common pitfalls to avoid:

  • Taking volume data values as granted.
  • Merging keyword volumes from multiple tools without further checks.
  • Skipping the spellings check.
  • Ignoring the grouping effect or not validating groupings.
  • Inferring hard conclusions from your keyword volume data calculations.
  • Not providing a reliability clause for your findings in the communication to your customer or prospects.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

We cannot afford to take data from keyword tools for granted.

To build expertise and provide solid, reliable advice, we ought to set standards for how we work with keyword data.

How Will This Impact Your Role as an SEO Consultant?

I would argue that it starts with establishing a greater sense of accountability.

Remember the earlier example of overlooking a minor detail?

Imagine that happens.

You give this killer PowerPoint presentation. The prospects at the table are completely baffled by your story; you just landed a new client!

A few months pass by, and you discover that the total volume amount of your keyword data set is only 60% of the total amount you initially communicated to your client.

Assuming your analysis included virtually all existing keywords relevant to the business, such a mistake is difficult, perhaps even impossible to rectify.

Especially if your client’s case is specific to a niche or product cluster, you simply won’t find other relevant keywords to close the volume gap.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

To avoid such disasters we recommend to incorporate the next worthwhile practices:

  • Spend more time on your data analysis. A correctly performed keyword analysis takes time. Quality ≠ quantity.
  • Validate your keyword data values.
  • Double-check your data for irregularities
  • Have your ‘facts’ straight.
  • Do you have to make a presentation and draw conclusions? Make sure you at least have a proper contextual story ready to support your claims.

Your boss or client might not understand why individual efforts during the analysis have to take a substantial amount of time.

Be open and transparent to clients and prospects about the required efforts to ensure the continuous delivery of quality. It creates trust and fosters mutual bonding.

Telling your client beforehand is thus indisputably better than explaining your mistake afterward.

That will irreversibly compromise the relationship with your client.

Final Notes

  • This study’s goal is not to place keyword tools in a bad light.
  • Neither do I argue that keyword tools are in any way deficient. The reason I have provided the examples is purely to evoke a sense of awareness surrounding the accuracy and reliability of keyword data.
  • This study did not include other search engines such as Bing, Yandex, and Yahoo.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Appendix

The study’s setup was as follows.

We selected a set of 160 keywords from various Google Search Console accounts. The selection of keywords depended on whether all of the following conditions were satisfied:

  • The keyword must have had a top 3 SERP ranking for 12 consecutive months without any temporary dips reaching lower rankings.
    • This facilitates an as close as possible approximation of the real average monthly impressions count, based on a 12 month period.
  • The keyword’s monthly impression count is 1000 or higher.
    • This increases the likelihood that each participating keyword tool’s database contains data on the selected keyword (long-tail keywords are less likely to be registered in keyword tool databases).
  • The keyword should not be subject to seasonality.
    • It increases the likelihood of consistent top SERP rankings throughout the year.
  • We also made sure that the 12 month period of GSC data matched the 12-month period with which keyword tools calculate their monthly averages.

These criteria were set in order to establish an accurate recording of calculated monthly impression values.

Most keyword tools calculate their monthly average volumes in a similar vein.

Plus de ressources:

Crédits d’image

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Image vedette: Créé par l’auteur, juin 2020Infographic: Created by author, May, 2020Screenshots taken by author, April & May, 2020