Quasiment depuis qu’il existe, Internet est arpenté par divers robots qui y côtoient les utilisateurs humains, fréquentant les mêmes sites, empruntant les mêmes tuyaux… À l’heure où les problèmes de congestion se font de plus en plus fréquents, une étude d’Incapsula pourrait donner envie de juguler un peu les ardeurs de tous ces robots…
En effet, selon cette société spécialisée dans la sécurité informatique, les robots de tous poils seraient responsables de 61.5% du trafic web, contre 38.5% aux humains. Pire, cette part est en forte hausse, puisqu’elle ne représentait que 51% du trafic il y a un an. De là à dire que le web irait bien plus vite sans les robots, il n’y a qu’un pas… Alors, faut-il interdire Internet aux robots ?
C’est difficilement envisageable… D’abord, parce que la moitié du trafic des robots est effectuée par des robots malveillants (spam, recherche de vulnérabilités…), qu’il sera de toute façon bien difficile de convaincre de cesser leurs activités… Et si des mesures techniques sont mises au point pour les bloquer à l’insu de leur plein gré, leurs développeurs auront vite fait de trouver des solutions de contournement pour que leurs robots ne soient plus détectés en tant que tels (d’ailleurs, dans les 38.5% d’humains recensés par Incapsula, il y a probablement quelques robots furtifs…).
Ensuite, parce que l’activité de certains robots est totalement indispensable au bon fonctionnement d’Internet. Par exemple, sans robots explorateur, les moteurs de recherche auraient bien du mal à alimenter leurs bases de données, et donc, seraient incapables de rendre leur service. Ces robots explorateurs représentent 31% du trafic global.
La solution à la croissance du trafic des robots viendra peut-être d’une utilisation plus fréquentes des diverses solutions qui ont été mises en place pour faciliter l’échange d’informations entre les sites web et les bons robots, par exemple le protocole Sitemaps, qui permet à un site de fournir la liste de toutes ses pages avec leur date de dernière modification et leur fréquence approximative d’actualisation, pour indiquer aux robots des moteurs de recherche s’il est temps d’aller réindexer une page où s’il peut encore attendre un peu.