L’impact économique du trafic de robots peut être d’une ampleur inattendue, selon une étude commandée par PerimeterX.

Une nouvelle étude suggère que les robots automatisés qui collectent du contenu, des descriptions de produits, des prix, des données d’inventaire et d’autres informations accessibles au public à partir de sites Web ont un impact économique et sur les performances plus important que de nombreuses organisations ne le pensent.

La société d’atténuation des bots PerimeterX a récemment mandaté la société de renseignements sur le marché Aberdeen Group pour étudier comment les bots de grattage Web pourraient affecter les revenus des entreprises numériques.

L’étude a révélé que les bots représentent entre 40% et 60% du trafic total du site Web dans certaines industries et peuvent avoir un impact sur les entreprises de plusieurs manières, notamment en surchargeant leur infrastructure, en biaisant les données analytiques et en diminuant la valeur de leurs investissements dans la propriété intellectuelle, le marketing et le référencement. L’impact sur les revenus de ces facteurs est considérable, selon PerimeterX.

«Le raclage Web nuit à vos revenus de bien plus que vous ne le pensez», explique Deepak Patel, évangéliste de la sécurité chez PerimeterX. Pour le secteur du commerce électronique, le raclage de sites Web peut diluer jusqu’à 80% la rentabilité annuelle globale des sites Web, selon l’étude.

« Pour le secteur des médias, l’impact annuel médian sur le business du scraping de sites Web représente jusqu’à 27% de la rentabilité globale du site Web », ajoute Patel.

De nombreuses organisations ne considèrent pas les robots de suppression de sites Web comme une menace pour la sécurité, car ils ne violent pas le réseau et n’exploitent pas une faille de sécurité. Cependant, ils constituent une grande menace pour la logique métier ou le contenu propriétaire essentiel pour maintenir un avantage concurrentiel.

«Les robots malveillants de grattage du Web peuvent voler votre contenu et vos images exclusifs et protégés par des droits d’auteur», explique Patel, ajoutant que cela peut également endommager le classement SEO d’un site lorsque les moteurs de recherche détectent des pages contenant du contenu en double.

Les organisations utilisent régulièrement des grattoirs Web pour rechercher des informations sur leurs concurrents, pour créer des services basés sur des données tierces ou pour diverses autres raisons. Les bots parcourent les sites Web – de la même manière que les robots des moteurs de recherche – et collectent toutes les informations que l’opérateur aurait pu publier publiquement et seraient utiles à l’organisation utilisant les bots.

Bien qu’il existe des questions sur la légalité de la pratique, de nombreux produits et services sont disponibles qui permettent aux organisations de gratter le site Web d’une autre entreprise pour obtenir des informations accessibles au public. Dans un procès impliquant la société de conseil en gestion des talents hiQ Labs et LinkedIn, la neuvième Cour d’appel de circuit a jugé l’année dernière que le raclage de données accessibles au public ne violait pas les lois américaines sur la fraude informatique. LinkedIn souhaitait que hiQ cesse de gratter les données accessibles au public de son site, que ce dernier utilisait pour créer des outils d’analyse pour aider les entreprises à résoudre les problèmes de rétention des employés.

« D’un point de vue technique, le web scraping est simplement une navigation sur le Web automatisée et accède et enregistre les mêmes informations, ce qu’un visiteur humain du site pourrait faire manuellement », avait noté l’Electronic Frontier Foundation en saluant la décision de la cour d’appel.

Bad BotsL’étude montre que si les humains et les «bons robots» – tels que ceux utilisés par les moteurs de recherche – représentaient une proportion substantielle du trafic Web, les «mauvais robots» représentaient également une proportion importante. Par exemple, près de 17% de tout le trafic sur les sites Web de commerce électronique était constitué de mauvais robots. Sur les sites de voyages, la proportion était plus proche de 31% et sur les sites médiatiques autour de 9,5%.

Patel dit que les mauvais robots sont des robots qui explorent les sites Web pour effectuer des actions abusives ou malveillantes, y compris la prise de contrôle de compte et le plagiat de contenu. Ces robots imitent souvent le comportement humain et utilisent plusieurs adresses IP pour échapper à la détection.

Ils peuvent également éliminer le contenu que d’autres sites auraient pu investir considérablement pour développer – comme les descriptions de produits optimisés pour le référencement ou le contenu marketing, par exemple. Pour les entreprises qui effectuent le grattage, un tel contenu peut aider à réduire, voire éliminer, la nécessité de développer leur propre contenu. À l’inverse, pour les entreprises numériques qui sont les cibles, le grattage Web peut potentiellement éroder la valeur de leurs investissements, selon l’étude. De même, les informations que les entreprises doivent mettre sur leurs sites – comme les informations sur les prix ou la disponibilité des produits – pourraient aider les concurrents à obtenir des informations précieuses pour prendre leurs propres décisions.

Le trafic de robots peut également surcharger l’infrastructure Web en envoyant des millions de demandes vers un chemin spécifique, comme des pages de connexion ou de paiement, provoquant un ralentissement pour les utilisateurs, explique Patel. Selon lui, 80% des identifiants de compte proviennent de mauvais bots.

«La suppression des bots peut avoir un impact significatif sur les performances du site Web car ils doivent collecter beaucoup de données rapidement», explique Patel. Sur les sites de vente au détail, par exemple, le trafic provenant de robots essayant de suivre le rythme des nouvelles listes de produits ou des changements de prix peut dégrader les performances.

De nombreux outils sont disponibles dans le commerce et sont conçus pour aider les entreprises numériques à gérer les grattoirs Web.

« Mais les robots d’aujourd’hui, à la différence des robots de base plus bruts du passé, sont de plus en plus aptes à imiter les utilisateurs réels et déguiser leur véritable objectif « , dit Patel. » Attaques de raclage hyper-distribuées, obtenues en utilisant de nombreux agents utilisateurs, IP et [autonomous system numbers] sont encore plus dangereux, ce qui entraîne un volume plus élevé et une plus grande difficulté de détection. « 

Contenu connexe:

Apprenez des experts de l’industrie dans un cadre propice à l’interaction et à la conversation sur la façon de s’y préparer « vraiment mauvaise journée « en cybersécurité. Cliquez pour plus d’informations et pour vous inscrire.

Jai Vijayan est un journaliste technologique chevronné avec plus de 20 ans d’expérience dans le journalisme commercial informatique. Il était plus récemment rédacteur en chef à Computerworld, où il a couvert les questions de sécurité de l’information et de confidentialité des données pour la publication. Au cours de ses 20 ans … Voir la biographie complète

Lecture recommandée:

Plus d’informations