# Le paradoxe de Simpson, ou « Pourquoi s'en faire avec l'hétérogénéité en statistiques distribuées? » **[[GRIIS-Sci_17JUN21_Julien-Corriveau-Trudel.pdf|Slides]]** J'ai discuté du contexte d'inférence distribuée dans une précédente vidéo, en vue de présenter à l'ACFAS [[x]](/talk/affiche_acfas/). Je reprends le contexte de cette vidéo pour présenter des raisons concrètes de l'intérêt pour l'hétérogénéité statistique quand on souhaite analyser des données confidentielles qui sont distribuées dans différents centres. Je le fais par le biais du fameux paradoxe de Simpson. Les données distribuées n'y sont pas à l'abri! Le paradoxe de Simpson survient en analyse statistique ou en apprentissage machine, que ce soit de l'analyse d'un tableau de contingence ou de l'apprentissage distribué (régression). Plus particulièrement, il peut apparaître lorsqu'on intègre une ou plusieurs variables connexes au problème à l'étude. Quand on ne fait pas l'intégration de la connaissance des nouvelles variables correctement, il se pourrait qu'on remarque l'apparition, la disparition ou même l'inversion d'une tendance dans les données. Si la variable à intégrer est l'attribution à un centre de données, alors le paradoxe de Simpson peut survenir si on suppose que les données sont hétérogènes.