Ouvrons la boite à outils nécessaire pour mettre en œuvre les concepts statistiques et réussir vos analyses.
Imaginons l'univers des données comme un jeu dont les règles sont fixées par les théories de la statistique. Dans notre équipe d'analystes, nous travaillons en défense à protéger nos revendications avec des outils et des données pendant qu'en attaque, nous controns les prétentions de l'équipe adverse.
Détaillons les outils indispensables, tirés du livre «les statistiques pour les nuls » de Déborah Rumsey.
-
Déviation standard
Sur une population avec une distribution normale, nous trouvons une forme de cloche rappelant que la plupart de la population est proche du centre, avec des écarts-types. La règle empirique du « 68-95-99,7 » indique que :
- 68% des observations se situent à l'intérieur d'1 écart-type de la moyenne
- 95% des observations se situent à l'intérieur de 2 écarts-types
- 99,7% des observations se situent à l'intérieur des 3 écarts-types
Toute observation au-delà de ces écarts-types est susceptible d'être une aberration ou peut être considérée comme atypique au sein de la population.
-
Boîte à moustaches quartile
Tukey a étoffé les diagrammes en boîte ou Box Plot en boîtes à moustaches (aussi appelées boîtes à pattes) pour comparer facilement une même information dans deux populations distinctes ou pour visualiser le rang et la position relative d'une donnée.
Pour réaliser une boîte à moustaches, nous représentons à la verticale notre population en quartile (segmentant les données par quart). Des boîtes indiquent les quartiles médians et des lignes (les « moustaches ») se prolongent jusqu'aux valeurs minimales et maximales observées, à l'exclusion des véritables valeurs aberrantes. La longueur des moustaches de part et d'autre vous indique si la variation est symétrique ou non. Si la moyenne et la médiane sont proches, nous aurons une symétrie de la distribution.
-
Variables catégorielles
Les variables catégorielles sont qualitatives puisqu'elles peuvent être classées en groupes avec une observation unique, par exemple les yeux bleus ou verts. Nous utilisons une marge d'erreur pour estimer les proportions d'une population comme le nombre de femmes votant pour tel homme politique et notre estimation se situera donc dans une fourchette à plus ou moins X%
Pour analyser les relations entre plusieurs variables catégorielles, telles que la façon dont les hommes et les femmes votent pour tel parti politique, nous établissons un tableau croisé et le test du Chi2, pour voir s'il existe une relation de dépendance. Dans l'affirmative, des modèles prédictifs peuvent être créés en utilisant la régression logistique.
-
Variables quantitatives
Comme leur nom l'indique, les variables quantitatives sont représentées par des chiffres tels qu'un nombre de voyages ou le prix d'un produit. Pour estimer des données quantitatives, nous utilisons des nombres et non des pourcentages : la valeur moyenne d'une maison est de 250.000€ avec une marge d'erreur de 15.000€. Des tests sont mis en œuvre pour comparer deux populations comme le revenu moyen des hommes par rapport aux femmes. Si plus de deux populations sont en jeu, l'analyse de la variance sera appliquée.
La régression linéaire permet d'évaluer si un degré de corrélation entre des variables quantitatives existe. Plusieurs variantes existent si la régression de base ne suffit pas. La régression multiple permet d'utiliser plus d'une variable pour prédire un résultat. La régression non linéaire fonctionne lorsque la relation de corrélation n'est pas une ligne droite. Les différents types de régression peuvent être combinés entre eux d'où une multitude de possibilités.
Enfin, certaines populations n'ayant pas de distribution normale, d'autres techniques sont utilisées en exploitant la médiane plutôt que le moyenne et l'ordre de classement des observations plutôt que l'écart-type. Avec ces outils, gageons que l'équipe adverse ne vous rattrapera pas !
Vous découvrirez au sein des 700 pages du livre « les statistiques pour les nuls » beaucoup d'autres outils plus perfectionnés, qu'il est bon de savoir utiliser à bon escient. Cet article vous permet d'avoir une première idée des différents outils statistiques et vous donnera peut-être l'envie d'explorer davantage l'univers statistique.