Dans un monde où tout devient donnée, comment séparer le bon grain de l'ivraie, le signal significatif du bruit, pour prendre les bonnes décisions ? Stephen Few, nous livre ses précieux conseils dans son dernier livre «Signal : comprendre ce qui compte dans un monde de bruit ». 

BidGata bruit 1
Rares sont les auteurs à avoir écrit une série de livres sur l'exploitation de la visualisation pour faciliter l'analyse. Dans «Signal», Stephen Few élargit cette fois sa vision de l'analyse, en se concentrant sur l'idée de «sensemaking»: comment donner du sens à l'analyse des données volumineuses pour responsabiliser les décideurs? Voyons comment ses solutions peuvent nous aider à comprendre la signification véritable des données.

Le mot "signal" est une métaphore pour les modèles et significations cachés dans les données. En électronique, les signaux doivent être séparés du bruit pour être utiles. À l'ère du big data, le volume exponentiel de données signifie plus de bruit et de plus grands défis pour isoler les signaux.

Revenir aux bases

Dans «Signal», Stephen Few suggère une approche axée sur le retour à l'essentiel, en mettant l'accent sur des techniques dont l'efficacité a fait ses preuves sur des volumes moindres. Ces méthodes sont tout aussi pertinentes pour le big data en raison de leur capacité à amplifier les signaux. Il met l'accent notamment sur l'utilisation de la visualisation à la fois pour explorer et expliquer.

Explorer les données

Un prérequis important : vous devez faire un certain nombre d'analyses simplement pour comprendre avec quelles données commencer. C'est ce qu'on appelle l'analyse exploratoire des données et l'auteur la compare à un explorateur qui s'oriente sur un nouveau territoire: "Quand nous étudions la terre, nous commençons à comprendre ses normes... Ce sentiment de normalité peut alors servir de toile de fond sur laquelle se détachent les signaux - souvent des écarts par rapport à la norme.»

Stephen Few commence ainsi habituellement ses journées en observant des variations dans des catégories importantes. Par exemple, une liste de produits seule ne nous dit pas grand chose tant que nous n'avons pas ajouté les revenus indiquant quels articles se vendent le plus.

Célébrez les 3S

Alors que le big data est généralement associé aux 3V (volume, vélocité et variété), Stephen Few souligne les vertus des 3S « small, slow and sure ». Il soutient que seule une petite quantité de données fonctionnera comme un signal. Alors que les données sont maintenant disponibles en plusieurs variétés, seuls quelques-uns de ces nouveaux choix sont sûrs. L'auteur encourage également les analystes à travailler lentement: «Nous devons prendre notre temps pour comprendre l'information et agir avec sagesse. La vitesse entraînera dans la plupart des cas des erreurs."

Contrôle des processus statistiques

Le livre de Few présente aux lecteurs les meilleures pratiques du contrôle des processus statistiques (SPC), un peu éloigné des statistiques pures. Le SPC aide les analystes à distinguer une variation de routine d'une variation exceptionnelle. (Ils sont également connus sous le nom de variation de cause générale et variation de cause spéciale.). Toutes les valeurs aberrantes ne sont pas des signaux et parfois le «bruit» dans le big data peut se manifester par des variations. Le SPC est un outil facile à appliquer pour discerner les signaux dans les variations dans le temps.

Voici un exemple illustrant ce propos avec les résultats d'une initiative visant à réduire la mortalité hospitalière en Angleterre.
BidGata bruit 2

Responsabilité

Le livre se termine en soulignant la responsabilité des analystes en tant que gestionnaires non seulement des données mais de la vérité. Ceux qui possèdent les compétences et les connaissances nécessaires pour organiser, analyser et interpréter efficacement les données ont la lourde responsabilité de rechercher et de défendre la vérité afin d'assurer la meilleure utilisation possible des données et les meilleures prises de décision . Cela vous donne vraiment envie d'être analyste!"Signal" couvre diverses possibilités d'exploration de données pour découvrir des modèles intéressants. Les cas pratiques illustrent le propos et son application à vos propres données. Cet ouvrage aide les lecteurs à comprendre les données et à les utiliser de manière responsable pour comprendre les problèmes du monde réel.