Les internautes d’aujourd’hui sont friands de statistiques en tous genres, surtout quand elles sont présentées sous forme d’infographies. Mais attention aux sources de ces statistiques, qui sont parfois douteuses, et peuvent mener à des interprétations totalement aberrantes.
En effet, à l’heure du big data, il devient possible en croisant des données de découvrir d’apparentes corrélations entre variables que les statisticiens n’auraient jamais cherché à corréler, parce qu’ils savent que ça n’aurait aucun sens. Alors qu’un moteur de traitement de données ne se pose pas forcément ce genre de questions… Voici un exemple trouvé aujourd’hui, qui m’a bien fait rigoler :
Bien entendu, il ne s’agit pas là d’un exemple sérieux (encore que… quel développeur web n’a jamais eu des envies de meurtre en devant réaliser un site compatible avec toutes les versions d’IE ? :D), l’auteur de ce graphique l’ayant fait à fin humoristique. Mais il illustre bien à quel point un traitement automatisé pourrait en arriver à corréler les données qui n’ont absolument aucun lien.
En effet, s’il est bien entendu évident qu’il n’y a pas de relation entre le taux de meurtres et la part de marché, il se trouve que, par le plus grand des hasards, les évolutions à la baisse de ces deux taux coïncident particulièrement bien sur cette période (l’auteur a bien pris des chiffres réels, sans les trafiquer).
Ajoutez une astuce classique, qui consiste à ne pas faire démarrer les axes à 0 pour accentuer les amplitudes des variations et les aligner (on a l’impression que la baisse des deux variables est de la même amplitude… en réalité, la part de marché d’Internet Explorer a baissé de 45%, alors que le taux de meurtres n’a baissé que de 15%), et hop, on se retrouve avec un graphique qui pourrait faire croire au lecteur peu attentif qu’il y a réellement un lien entre les deux variables.
Vous le voyez, il est donc assez facile, à partir de données rigoureusement justes, de tirer des conclusions totalement erronés, par une habile mise en relations de données totalement indépendantes et par le choix d’un mode de présentation adapté. Méfiance donc face à la multiplications des infographies en tout genre : si la présentation graphique facilite la lecture des informations, elle ne doit pas dispenser de réfléchir à la pertinence des chiffres et de leur mise en relation.
Une réflexion sur « Les statistiques, on leur fait dire ce que l’on veut »