Google, une accentuation sur la sémantique

Google-et-les-recherches-accentuées Dernière mise à jour le 24 mars 2013 à 15h59

L’intérêt de cet article en terme de veille SEO est moindre, il s’agit surtout d’un léger coup de gueule envers les moteurs de recherches et en particulier Google qui est celui que je connais certainement le mieux.

Nous sommes en 2013. Nous sommes capables de reproduire des neurones à partir de cellules de peau. Nous pouvons prévoir en partie des catastrophes naturelles voire même des crimes (si si, au Royaume-Uni on se penche sur ça, un peu comme dans la série Person of Interest pour ceux qui connaissent). Nous sommes même capables de transformer du cheval en bœuf, preuve en est dans les lasagnes !

Plus sérieusement, la Science nous permet de réaliser des prouesses technologiques incroyables et malgré tout, quelque chose me chiffonne. Lorsque l’on effectue une recherche sur les moteurs de recherche, et notamment sur Google, les résultats obtenus diffèrent si l’expression tapée est accentuée ou non. L’intérêt me semble nul, ne sommes-nous pas capables en 2013 de faire quelque chose d’homogène à ce niveau-là ? Pourtant cela semble trivial, mais alors qu’elle est la raison d’un tel comportement ?

Recherches accentuées : homogénéiser les SERP est-il pertinent ?

Les équipes de Google, et particulièrement Matt Cutts, nous parlent constamment de pertinence. Lorsqu’on les écoute, toutes les actions mises en place depuis plusieurs années par leurs soins ont pour finalité globale de rendre des résultats pertinents aux recherches des internautes. Mais alors, est-il pertinent d’afficher des résultats différents pour les recherches “agence de référencement” et “agence de referencement” ? Je n’en suis pas très sûr…

Tous les SEO le savent, choisir ses mots clés est important, et une fois les mots clés choisis, il est nécessaire de les trier selon divers critères tels que la présence d’accents ou la forme singulier/pluriel. Que les résultats diffèrent pour un singulier ou un pluriel ça je le conçois, mais pour les accents, quel intérêt ?

Il est vrai qu’une distinction selon les caractères peut être déterminante dans le cadre d’homonymes accentués. Par exemple, si je recherche la définition de “ou” et celle de “où”, je m’attends à tomber sur deux pages différentes (ou une page globale). Mais pour le reste, qui soit dit en passant représente l’immense majorité des cas, l’intérêt semble inexistant.

Retirer les accents, ou comment dégrader son contenu pour améliorer son positionnement

Comme le signale assez régulièrement Matt Cutts, content is king. Un site doit être créé pour l’utilisateur, dans le but de lui apporter une expérience agréable et enrichissante. Pourtant, le fait que les SERP soient différentes selon que la recherche comporte des accents ou non, oblige les référenceurs à définir des stratégies spécifiques. Or, une étape efficace pour se référencer sur des termes non accentués, alors qu’ils devraient l’être pour être correctement orthographiés, est de les intégrer à son contenu. Cela implique donc de faire volontairement des fautes d’orthographe. Pour ma part, je ne considère pas cela comme de l’enrichissement de contenu… Le pire, c’est que l’ajout volontaire de ces fautes d’orthographe devra également se faire sur d’autres sites pour réellement espérer se positionner correctement (via le netlinking ou les partages sur les réseaux sociaux).

Comme si la génération SMS n’avait pas assez de mal, nous faisons volontairement des fautes sur certains mots pour récupérer du trafic… C’est à force de lire des mots mal orthographiés que l’on ne sait plus les écrire correctement.

Vous l’aurez compris, je m’insurge devant ce phénomène, et pourtant moi-même je définis des objectifs selon ces différentes “formes fléchies”. D’autant plus que ce comportement de Google nous fait directement entrer en contradiction avec ses propres guidelines…

Démonstration par l’exemple

Prenons l’exemple de monsieur Ecoleau qui souhaite moderniser son système de chauffage, tout en respectant au mieux la planète. Imaginons que ce monsieur Ecoleau soit déjà un peu au courant de ce qui se fait sur le marché et donc qu’il sache que parmi les produits répondant à son besoin, figurent notamment les pompes à chaleur et les poêles à granulés.

Monsieur Ecoleau a un ordinateur et il aime beaucoup fouiner sur Internet pour rechercher des informations et suivre l’actualité. Il décide donc de rechercher des renseignements sur les différents systèmes de chauffages écologiques existants et pourquoi pas, demander un ou plusieurs devis gratuits en ligne. Au cours de ses recherches, monsieur Ecoleau va forcément vouloir en savoir d’avantage sur ce qu’il connait déjà, à savoir les pompes à chaleur et les poêles à granulés.

Recherche d’information sur les pompes à chaleur

Vous l’aurez remarqué, ou pas, le terme “pompe à chaleur” comporte la préposition “à”. La règle usuelle que l’on nous apprend à l’école primaire pour utiliser ou non cette préposition, est que l’on ne doit l’utiliser que si et seulement si on ne peut pas dire “avait” à la place (certains vont peut-être me remercier de cette super astuce qu’ils avaient oublié ^^). Seulement, tout le monde n’est pas un as de l’orthographe et puis il y a aussi les flemmards qui ne tapent pas toujours les accents lorsqu’ils se servent d’un clavier. En conséquence, deux scénarios se dégagent de cette recherche.

  1. Monsieur Ecoleau fait la recherche “pompe à chaleur” parce qu’il est rigoureux
  2. Monsieur Ecoleau fait la recherche “pompe a chaleur” parce qu’il n’est pas très fort en orthographe et/ou qu’il est paresseux.

Bien que les termes soient littéralement différents, la finalité recherchée est la même : obtenir des informations sur les pompes à chaleur.

Lorsque l’on reproduit les deux scénarios, on se rend compte que Google tente effectivement de répondre du mieux qu’il peut à cette demande (en n’oubliant pas de placer un maximum de pub évidemment) et il semble le faire plutôt bien dans les deux cas. Seulement, les résultats proposés sont différents. Je ne critique pas ici leur qualité, mais leur différence. Et oui, je suis un raciste des SERP voyez-vous…

Comparatif-SERP-accents-VS-sans-accents
Cliquez sur l’image pour constater l’incohérence.

Recherche d’informations sur les poêles à granulés

Pour cette seconde recherche, la problématique est la même, mais le nombre d’accents étant plus grand, les variantes sont plus nombreuses. On se retrouve donc potentiellement avec autant de SERP différentes.

Si vous faites le test sur ces requêtes, vous verrez que les résultats sont souvent assez similaires. En observant uniquement la première page, comme la majorité des internautes car dans l’ensemble Google fait bien son boulot il faut le souligner, on remarque les choses suivantes :

  • Parfois seul l’ordre des résultats change.
  • Parfois des sites apparaissent, et par conséquent d’autres disparaissent.

La raison est simple. Les sites qui ressortent possèdent un contenu et un référencement axé autour des thèmes recherchés. Ils sont donc souvent bien positionnés sur l’ensemble des variantes. Seulement, certains le sont parfois un peu moins sur une variante particulière et sont donc moins bien classés. On obtient alors des différences quelques fois flagrantes.

Les conséquences

Comme je viens de l’expliquer, il peut arriver que les résultats soient assez différents selon que l’on effectue une recherche accentuée ou non sur un même mot clé. La conséquence est que l’information donnée aux internautes ne proviendra donc pas des mêmes sources selon les différents scénarios.

Personnellement, j’ai réellement du mal à comprendre que ceci se produise toujours, malgré les grandes avancées que Google a pu faire depuis sa création.

Et chez les autres moteurs ?

Il existe de nombreux moteurs de recherche autres que Google, je me suis donc contenté des principaux, à savoir Bing et Yahoo.

Apparemment, le comportement est le même pour eux, les résultats varient. Je n’ai pas cherché à savoir qui était le plus stable car dès lors que les résultats varient, il y a selon moi une incohérence.

Conclusion

Il est fort probable que je ne vois pas tous les enjeux techniques liés à ce phénomène, mais tout de même, il reste des progrès à faire dans ce sens. Je pense que ceci est un très bel exemple des lacunes de Google au niveau sémantique, bien que des initiatives telles que l’Open Graph aient vues le jour. Les cas de recherches sémantiquement identiques qui renvoient des résultats différents sont nombreux. Outre les accents, on peut également citer les recherches avec des mots creux comme “agence de référencement” ou “agence référencement”. La finalité des recherches est la même bien que la deuxième ne soit pas très Française.

Ce comportement des moteurs est certainement bien accueilli par les SEO professionnels qui peuvent y voir une facture plus lourde pour leurs clients, cela ayant le don d’augmenter la liste des mots clés ciblés. Mais pour qui souhaite rendre visible son site/blog personnel, la chose est plutôt fâcheuse.

Durant la rédaction de cet article, j’ai pu lire un billet de Sylvain d’Axe-Net ayant près de 4 ans et qui traite justement du référencement de termes accentués. Ce qui est {étonnant|navrant|attristant}, c’est que ses conseils soient toujours d’actualité. Pourtant, son billet terminait sur une note optimiste et il était plutôt dans le vrai en disant qu’en tapant “manger” sur Google, celui-ci nous afficherait des Mc Do. Il suffit de taper “météo Paris” pour voir que Google a effectivement progressé dans ce sens. Mais malgré ces progrès, aucune avancée ne semble avoir été faite pour les recherches accentuées.

Google, une accentuation sur la sémantique, 4.8 out of 5 based on 6 ratings

Commentaires

#1
Korleon

Sympa l’article je ne suis pas d’accord sur tous les points mais sur pas mal en effet.

#2
LaurentB

Ce n’est même pas un problème de sémantique, mais bien de linguistique.
C’est une prouesse de pouvoir traiter autant de langues et le français est clairement un casse-tête.
Du côté moteur, je pense qu’on souhaite préserver avant tout le “sanity check” et les évolutions peuvent tarder.
Rien d’étonnant à observer que les remarques d’il y a 4 ans sont toujours d’actualité.

Morgan Fabre

Certes il s’agit d’un problème de langue, mais il produit un effet négatif côté sémantique des recherches “anormalement non-accentuées”.

Au final, que je recherche “création de sites web” ou “creation de sites web”, mon but est le même et les deux recherches sont sémantiquement équivalentes. Or, le problème linguistique que Google a apparemment du mal à traiter lui fait produire des résultats différents. Bien que dans les deux cas les résultats soient de même qualité, ils diffèrent et cela ne me semble pas normal.

De mon côté en observant cela, j’en conclus que si Google a du mal à traiter de tels problèmes, il doit encore plus galérer sur la compréhension de données qui est beaucoup plus complexe. Après, peut-être qu’ils s’en foutent juste royalement car l’important est d’avoir des résultats de qualité peu importe la façon dont on écrit les requêtes. Mais dans ce cas, ce comportement nous incite à ajouter volontairement des fautes dans nos contenus et c’est donc une dégradation provoquée indirectement par le moteur.

Et puis clairement, c’est assez rageant de bien se positionner sur des termes avec/sans accents et d’être bien moins loti pour les autres formes…

Les remarques d’il y a 4 ans sont toujours bonnes, et pourtant Sylvain d’Axe-Net disait à la fin de son billet qu’il avait confiance en les équipes de Google et que ces techniques bien qu’efficaces à l’époque, seraient peut-être dérisoires par la suite. En tout cas, je l’ai compris comme ça. Mais malgré son optimisme, rien n’a bougé.

LaurentB

Attention, le terme “linguistique” est particulier dans le monde du search. Ce n’est pas l’étude du language humain, mais simplement l’utilisation de l’information sur la structure et les variations de language.

#3
David

Bonjour,

Tout à fait d’accord ! Moi aussi j’ai eu un petit coup de « méchanceté passagère » (en fait deux fois si on lit l’article de mon petiou blog ^^) envers cet outil de recherches et votre remarque pertinente s’ajoute donc à ma liste des incohérences relevées. Nombre de fois où j’ai été dans l’obligation de jouer avec les accents ! Cela a pour conséquence de pousser aux fautes volontaires et tronquées des textes qui étaient « naturels » par le passé…

Cordialement,
Dave CreaPcMedia

#4
Gaëtan

Bonjour Morgan,

Je comprends tout à fait ton désarroi et le partage. Pour ma part, je pense que Google s’en fout royalement. Si quelqu’un tape “agence referencement” et qu’il trouve ce qu’il cherche, Google est content. Si la personne ne trouve pas ce qu’elle cherche, elle ne va pas modifier sa requête en tenant compte des accents (exemple “agence référencement”). Par contre, elle ajoutera peut-être un lieu (exemple “agence referencement belgique”). Je crois que Google voit les choses comme ça…

Par ailleurs, je m’interroge sur le cas de figure que tu présentes dans le cas de noms de domaine accentués ou non. En effet, ici en Belgique, nous pourrons réserver ce genre de noms de domaine (que j’ai en horreur, par ailleurs) à partir du 11 juin prochain… Toute chose étant égale, as-tu des remarques concernant ceci ?

Merci pour tes articles de qualité,
Au plaisir de te lire,

Gaëtan

Morgan Fabre

C’est une bonne question. A priori, on pourrait dire qu’étant donné que l’algo de Google se base en partie sur les NDD, il y aura un léger avantage pour les domaines accentués sur des requêtes accentuées. Question de matching.

Cependant, sur le screen que j’ai mis dans l’article, j’ai remarqué quelque chose d’étrange. Google semble faire la correspondance des caractères non accentués pour les caractères accentués, en gros il comprend que “a” équivaut à “à”, mais pas l’inverse. Pour la requête “pompe à chaleur”, il surligne même les termes au format “pompe a chaleur”. Mais ce n’est pas vrai dans l’autre cas.

D’un autre côté, on voit bien apparaître des résultats au format “pompe a chaleur” pour la requête non accentuée alors qu’ils ne sont pas présents sur la SERP de la requête avec accents. Ce qui démontre que malgré cette compréhension, il favorise tout de même le matching pur.

Difficile donc de déterminer si l’effet est plutôt positif ou négatif pour les domaines avec accents. Il faudrait faire un test pour le savoir.

Réagissez à cet article

Données obligatoires