Comment Google peut-il détecter un réseau de liens ?

post
Credits
Image voir Notes de fin - Article: , Surfandbiz
Depuis quelques mois, les stratégies de communication et d'action de Google sont redoutables car les techniques de manipulation répréhensibles sont de mieux en mieux détectées par l'équipe antispam du moteur, retour sur quelques affaires récentes.

L'affaire buzzea, suite à celle de backlinks.com, pose à nouveau le problème des articles sponsorisés et des backlinks en statut follow, car pour exister dans les Serps, les backlinks sont indispensables, et pour les professionnels, quoi de plus normal de publier des articles sponsorisés pour se faire connaitre, cela sert à générer du chiffre d'affaires, à développer les entreprises, à embaucher, à verser des salaires... toute la dynamique économique en somme ! d'autre part, à force de "convaincre" les administrateurs de sites de mettre les liens en nofollow, une question demeure: si le statut nofollow doit devenir la norme, pourquoi ne pas le rendre universel une fois pour toutes ?

Pour rappel : buzzea arrête son activité, se défend d'être un "réseau de liens", comme ils l'expliquent ici dans un communiqué et stoppe du même coup sa collaboration avec des milliers de sites éditeurs, en précisant qu'ils ne seront sans doute pas la principale victime de cette décision, et ce nouveau cas, invite une nouvelle fois à réfléchir deux minutes sur la définition d'un réseau de liens factices, et comment expliciter les critères constitutifs du webspam.

Encore faudrait-il connaitre les causes exacts de cette pénalité - mis à part quelques footprints -, est-ce seulement une investigation humaine ? une communication de peur ? habile et redoutable, dans le but de faire passer un message fort et dissuasif... Cela dit, les articles sponsorisés ne sont pas interdits par les Guidelines de Google à condition que les liens soient en « nofollow », c'est à dire neutres ou sans jus, en revanche la détection d'un écosystème de sites publiant des articles sponsorisés avec des liens « follow » devient du webspam, toujours selon son règlement.

Aujourd'hui, la notion de "réseau de liens", et de "webspam" est toutefois encore dans un cadre très flou, car on peut y mettre divers critères avec des pénalités derrières, dictées selon des règles qui évoluent en permanence puisqu'un algorithme apprend et s'adapte tout le temps. Pour le démontrer, nous allons prendre quelques facteurs clés de menaces qui pourraient mettre en alerte ce dernier. Et partir du postulat, que l'on peut établir à partir des datas une cartographie très précise du web avec le CV complet de chaque site. Sans oublier que le web est un échantillon unique pour le traitement et l'analyse des données, poser des variables de contrôle, établir des corrélations pertinentes et interpréter le résultat avec l'aide des statistiques.

Quelles sont les pistes pour renifler un réseau de liens ?

En réalité, on sous estime les renseignements de base disponibles pour détecter un potentiel réseau de liens :

  1. Un domaine a le même REG (Domain name registrant) que d'autre domaines qui lui font un lien.
  2. Un domaine a le même IP que d'autres domaines qui lui font un lien.
  3. Un domaine a le même Class-C que d'autre domaines qui lui font un lien.
  4. Un domaine a le même serveur DNS que d'autre domaines qui lui font un lien.
  5. Une page web a plus de 10 backlinks depuis 1 Class-C.
  6. Un domaine a le même footprints que d'autre domaines.
  7. Un domaine a le même Google Analytics code que d'autre domaines qui lui font un lien.
  8. Un domaine a le même javascript de tracking que d'autre domaines.
  9. Cette liste n'est pas exhaustive et on peut imbriquer les critères...

Attention à votre mauvais voisinage !

Cet échantillon de critères observés facilement, parfois grossiers, rappel simplement que l'on peut recueillir très vite avec les datas et sur les pages de chaque site, un maximum d'informations et confirmer beaucoup de choses avec le code analytics de suivi « maison », on ne peut pas faire mieux pour établir facilement des corrélations « on site » et « off site ». Ajoutons à cela un algorithme, dont on ne sait rien, sinon qu'il dispose d'une puissance de calcul colossale et d'un ordinateur quantique qui peut faire beaucoup mieux que de chercher de simples empreintes et peut-être même, transformer le premier moteur de recherche mondial en intelligence artificielle. Un sujet qui intéresse sérieusement le géant américain puisqu'il vient de racheter, DeepMind, un spécialiste de l'intelligence artificielle.

Pour en revenir à notre sujet, si l'on prend juste le premier cas, - un domaine a le même propriétaire que d'autres domaines -, on peut tracer le client "parqueur ou non", déposant du nom de domaine, mais, de plus, si le même propriétaire à déposé 200 noms de domaines, on imagine qu'il en a le contrôle du contenu, et, si des liens (une dizaine voire une centaine) se croisent entre ses sites, c'est déjà un premier indice, - Matt, suggère d'ailleurs dans une récente discussion sur Twitter ici, que les Googlers, lors de l'examen d'un pénalité, peuvent considérer différents sites avec un seul propriétaire et dans certaines niches comme la finance, cela prend 5 secondes pour trouver des sites avec le même proprio... Maintenant, si un nouvel indice s'ajoute au premier, puis un troisième... par exemple, avec des footprints identiques sur les sites qui permettent d'identifier des signaux de propriété, c'est maintenant une piste sérieuse qui renforcera l'hypothèse d'un possible réseau de liens factices. Et pour finir, si vous avez des liens entrants à partir de ces sites web dans votre voisinage, l'algorithme vous plantera peut-être sa pique décisive. Destructeur.

Où est le scoop ? mais dans le scoop

En théorie, il vaut d'ailleurs mieux prendre une pénalité manuelle que les foudres de l'algo, ce qui créée certes, une légère panique chez les Webmasters, car beaucoup plus sévère, mais au moins on discute entre humains, ensuite on peut assainir un environnement abusif de liens factices, puis s'expliquer et demander un réexamen de son site, et obtenir enfin une levée de pénalité manuelle. Un algorithme prend des décisions froides, sans l'oeil humain, indiscutables et complexes dans la plupart des cas, il faut attendre également à chaque fois la mise à jour de Penguin, ce qui peut prendre plusieurs mois, une situation intenable pour une entreprise ou une startup qui tire directement ou indirectement ses revenus d'internet. Signalons également que John Mueller, ingénieur chez Google, annonce ici dans une vidéo, que selon lui, si un site est pénalisé par un filtre de type Penguin, il ne sert à rien de le récréer sous un autre nom de domaine, avec une redirection 301... c'est d'ailleurs assez logique, si l'emballage et le contenu est le même ailleurs, comment pourrait-on s'affranchir aussi facilement d'un filtre renifleur aussi parfait. En revanche, info ou intox ? Mr John Mueller a vraiment décrocher le scoop du mois en annonçant que cette rétrogradation à cause de l'algo Penguin serait maintenue également sans aucune redirection 301. Dévastateur.

Notes

[1] Crédits photo : Porter Novelli Global (CC By 2.0)


à lire aussi