Les belles erreurs statistiques

Indispensables sondages, surtout erronés. Les Français ne veulent plus de manifs et le cannabis rend schizophrène. Deux exemples dont le blog Econoclaste déniche les approximations dans l'usage qu'ils font des statistiques.

Je n’aurai pas dû lire Proofiness. Cet excellent livre, sur la façon dont les chiffres sont torturés, manipulés, par journalistes, politiques, militants, magistrats, a un gros défaut : il n’est plus possible ensuite de lire le journal sans sauter au plafond d’énervement. Trois exemples du samedi 23 octobre.

Les français souhaitent-ils la fin des grèves?

Commençons par un sondage, présenté dans un article titré les français souhaitent la fin des grèves. Un magnifique concentré, que ce soit l’article, ou le sondage.

Pour le sondage, d’abord, ça ne rigole pas. On nous colle partout des sigles “ISO”, sans doute pour bien nous persuader que nous sommes face à de la science rigoureuse. La méthodologie, indiquée page 3, est comique de précision : ce sont mille et une personnes qui ont été interrogées. Vous vous demandez sans doute “pourquoi ce nombre”. Il y a deux réponses. Premièrement, sur un sondage effectué aléatoirement, le nombre de personnes interrogées détermine la marge d’erreur. Or la marge d’erreur est indiquée plus loin sur la page, ce qui nous indique que ce nombre de personnes interrogées est redondant.

Mais il ne l’est pas. Tenez, un petit test. Laquelle de ces deux phrases vous semble la plus convaincante : “les français sont majoritairement hostiles au bouclier fiscal” et “65% des français sont hostiles au bouclier fiscal”. Si vous êtes comme tout le monde, la seconde phrase vous paraît bien plus convaincante. Pourtant les deux disent la même chose. Mais la présence d’un nombre dans la seconde donne l’impression qu’il y a eu mesure, et que cela rend la phrase plus “scientifique”. Pourtant, nulle part n’est indiqué comment ce chiffre a été déterminé (je viens de l’inventer, en fait). Ce phénomène par lequel la simple présence de nombres persuade est renforcé par la précision apparente du nombre. Par exemple, si j’écris à la place de la phrase “64.93% des français sont contre le bouclier fiscal” cela semble plus convaincant que 65%, qui semble arrondi. Pourtant, ce nombre n’est pas moins inventé que le précédent.

Dans un sondage, le nombre de personnes interrogées ne sert qu’à une chose : déterminer la marge d’erreur. Celle-ci est à peine modifiée par le fait d’interroger 1000 ou 1001 personnes. la précision exacte du nombre de personnes interrogées, ici, sert donc beaucoup plus à établir la conviction de scientificité qu’à informer réellement.

- Parlons-en, d’ailleurs, de la marge d’erreur. Elle correspond, dans un sondage, au premier type d’erreur, l’erreur statistique. Celle-ci provient du phénomène suivant. Supposez une urne remplie de 10000 boules, 6000 rouges et 4000 jaunes. Vous prélevez un échantillon aléatoire de 10 boules dans cette urne. Votre échantillon peut reproduire la répartition de la population (6 boules rouges et 4 jaunes). Mais il y a de fortes chances de tomber sur un échantillon différent de la population (par exemple, 7 rouges et 3 jaunes, ou même 10 rouges et zéro jaunes). Par contre, plus votre échantillon est grand, plus le risque d’obtenir un échantillon très différent de la population diminue. Cela vous donne donc de fortes chances, lorsque vous prélevez un échantillon suffisamment grand, d’obtenir un échantillon proche de la population. Cette proximité est la marge d’erreur, vous en avez quelques exemples en suivant ce lien (en anglais, NdCE).

Mais la marge d’erreur ne correspond qu’à l’erreur statistique. Elle ne prend pas en compte l’autre erreur, la plus courante : l’erreur structurelle. L’erreur structurelle vient de ce qu’en pratique, les sondages ne correspondent jamais au cas théorique de boules de couleur prélevées dans une urne, comme dans les exercices de mathématiques. En pratique, les sondages sont effectués par des personnes réelles, qui peuvent se tromper en collectant leurs données; surtout, particulièrement dans les sondages réalisés auprès de personnes réelles, il y a des biais de collecte d’information. Il est par exemple impossible de sonder une personne qui refuse de répondre aux sondages. Lorsque vous lisez “x% des français pensent que” il faut lire “x% des français qui répondent aux sondages pensent que”. Les gens peuvent mentir. Les gens peuvent vouloir être “bien vu” de la personne qui les sonde (et quand on est interrogé par une jeune voix féminine, on est tenté de lui faire plaisir). Les réponses peuvent être orientées par la façon dont les questions sont posées, voire même par l’ordre dans lequel elles sont posées : si par exemple on vous demande d’indiquer vos opinions politiques avant de vous poser des questions de société, vous aurez beaucoup plus tendance à vous conformer aux opinions-type de votre camp.

Les sondeurs déclarent toujours l’erreur statistique, sous forme de marge d’erreur. Mais ils ont une fâcheuse tendance à laisser croire que la marge d’erreur mesure tous les risques d’erreur, y compris l’erreur structurelle. Ce n’est pas le cas. Pour une raison simple : si l’erreur statistique est connue et limitée, l’erreur structurelle peut potentiellement rendre le sondage totalement faux. Avec trop d’erreur structurelle, la “marge d’erreur” peut devenir 100%.

Dans cet exemple (voir toujours page 3), il y a un biais énorme : le mode d’interrogation, en ligne. Là encore, la “scientificité” est assise sur la dénomination du système d’interrogation, désignée par un sigle en anglais. Ca fait tout de suite plus sérieux. Mais cela a une implication claire : les personnes qui ont servi à ce sondage correspondent à un sous-groupe particulier de la population, les gens qui ont un ordinateur et un accès internet, et qui acceptent de répondre à un sondage en ligne. Il y a très peu de chances qu’ils représentent la population française. L’application là-dessus de la “méthode des quotas”, au passage, loin d’améliorer le résultat, ne fait qu’introduire de nouveaux biais.

A partir de ce monument de scientificité, la façon dont l’article est présentée peut elle aussi totalement en modifier la perception. En s’appuyant sur la page 5 du document, on aurait très bien pu titrer “61% des français approuvent le mouvement contre la réforme des retraites”. Etrangement, ce sont les questions page 8 et 10 qui servent pour faire le titre : “les français souhaitent la fin des grèves”. Parce que, comme on peut toujours s’y attendre avec un sondage, poser la même question avec des formulations et des informations différentes modifie le résultat obtenu. Un esprit raisonnable, face à ces contradictions, en conclurait que ce sondage ne nous apprend rien d’intéressant. C’est oublier les talents d’exégèse que l’on peut déployer pour donner du sens à une série de nombres qui n’en a aucun.

L’article nous indique donc que “l’opinion a un point de vue complexe et nuancé”. qu’en termes galants… C’est que le sondage ne donne pas les mêmes résultats selon qu’on demande aux gens s’ils “comprennent” ou “soutiennent” les manifestations. On aurait pu essayer d’autres verbes : “approuvez-vous”? “Appréciez-vous”? “vous intéressez-vous”? et à chaque fois, on aurait eu un nombre différent. Du commentaire sur du bruit.

Schizophrénie et cannabis: corrélation n’est pas causalité

Deuxième article : “Panini retire du marché le jeu polémique des Skyzos”. On y apprend que suite à des plaintes d’associations, Panini retire un jeu de la vente. Mais comme il est dans la rubrique “santé”, l’article se doit de nous apprendre autre chose que cette anecdote sans grand intérêt. Le dernier paragraphe nous instruit donc sur la schizophrénie de la façon suivante :

Si l’hérédité est une composante importante dans son apparition, d’autres facteurs environnementaux, comme l’isolement social ou la consommation de cannabis, peuvent également peser.

Voici un second exemple de chiffres torturés : la corrélation prise pour une causalité. Il existe en effet de nombreuses études médicales montrant l’existence d’une corrélation entre différentes variables, ici, l’apparition de la schizophrénie et l’isolement social ou la consommation de cannabis. Voici ce que ces études montrent : les schizophrènes ont plus tendance que le reste de la population à consommer du cannabis ou à être isolés socialement. Et c’est tout. Vous voyez que la causalité peut être interprétée dans tous les sens. Il est fort probable, par exemple, qu’une personne commençant à manifester des signes de schizophrénie va avoir tendance à s’isoler socialement. On pourrait supposer également que face à l’angoisse que causent les premiers symptomes de cette maladie, les gens soient incités à consommer du cannabis pour les calmer. Dès lors, c’est la schizophrénie qui cause isolement et toxicomanie. Ou alors, comme indiqué dans l’article, la causalité va dans l’autre sens. Comment savoir?

En pratique, il y a des moyens pour essayer de mieux distinguer le sens de la causalité. Mais ils sont difficiles à mettre en oeuvre, et eux-mêmes sujets à des erreurs. Surtout, ils ne sont que très rarement utilisés pour les études médicales. C’est ce qui fait qu’une quantité invraisemblable d’études médicales est fausse. Mais l’article n’est pas là pour instiller le doute, mais pour instiller discrètement une morale : le cannabis, ça rend fou.

Lorient et Nancy: gazon maudit?

Enfin, à tout seigneur tout honneur, l’Equipe nous gratifie d’un monument hilarant au dénombrement bidon, dans cette fine analyse consacrée aux équipes de foot de Lorient et Nancy. Les deux équipes, cette année, sont en effet passées au gazon synthétique. Et malheur : les résultats ne suivent pas. A l’appui de cette démonstration, un schéma avec plein de jolies couleurs mais parfaitement illisible, d’où il semble ressortir que les deux équipes ont cette année de bien mauvaises performances, en particulier à domicile. Pourtant, une connaissance même minimale du football indique qu’il y a des tas de facteurs qui font qu’une équipe, d’une année sur l’autre, voit ses résultats se dégrader après 9 journées : changements de joueurs, chance, adversaires rencontrés, progrès relatif des autres équipes, etc. cette même connaissance minimale indique qu’il peut y avoir des tas de raisons d’adopter un terrain synthétique, autres que la volonté d’obtenir de meilleurs résultats : coût, climat local (il gèle souvent à Nancy, il pleut souvent à Lorient). Enfin, je me demande même pourquoi j’explique à quel point nous sommes là dans le grand n’importe quoi.

A bientôt, dans le monde merveilleux des copies laborieuses à partir de chiffres inutiles.

Article publié à l’origine sous le titre Un jour ordinaire dans le monde merveilleux des faux nombres sur le blog Econoclaste. Comme souvent, les commentaires valent le détour.

Illustration FlickR CC Obscurate Associate ; Thomas Duchnicki ; artnoose.

Laisser un commentaire

  • manu le 24 octobre 2010 - 19:39 Signaler un abus - Permalink

    On se souviendra des adepte du « Flying Spaghetti Monster » qui, dans leur lettre aux écoles Texanes montraient que puisque les nombre de pirate diminuait dans la mers des Caraïbes et que la température sur Terre ne cesse d’augmenter, on peut en déduire que la disparition des pirates est responsable du réchauffement climatique ;)

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • Romain le 24 octobre 2010 - 21:11 Signaler un abus - Permalink

    Perso j’aime bien :
    1- l’espérance de vie sur la bande d’arrêt d’urgence, de 20 minutes. Problème : c’est la moyenne des gens décédés sur la bande d’arrêt d’urgence.

    2- La majorité des accidents de la route ont lieu près du domicile. Problème : on ne tient pas compte du fait que l’extrême majorité des trajets ont lieu autour du domicile. Sur un kilomètre à côté de chez soi, a-t’on plus de chance de mourir que loin de chez soi ?

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • Blogueur Influent le 24 octobre 2010 - 21:20 Signaler un abus - Permalink

    Le monde entier a envie de croire que le cannabis est inoffensif, mais il semble que la fumette, mais aussi l’alcoolisme soient des déclencheurs avérés de la schizophrénie, maladie qui n’est pas spécialement amusante. Au jour d’aujourd’hui, on pense que 10% des hommes ont des dispositions pour la schizophrénie et que la maladie se déclenche à cause de la consommation de psychotropes, à cause de traumatismes psychologiques (agression par exemple, mais aussi stress de certaines situations). Mais c’est vrai, on ne sait pas tout. Le déni, motivé par l’envie que le cannabis soit “inoffensif”, ne fera pas progresser la science, pas plus que les gens qui font croire que fumer rend fou. Ceci dit ce qui est bien avec Internet c’est qu’on trouve toujours le lien qui est d’accord avec soi. Et comme on est d’accord, il devient une preuve irréfutable. Maintenant, causez avec les psychiatres cliniciens, vous verrez peut-être les choses autrement.

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • Berserk le 25 octobre 2010 - 11:39 Signaler un abus - Permalink

    Aaah les joies des statistiques …
    Aujourd’hui les scientifiques y ont de plus en plus recours pour leurs recherches, en particulier en psychologie où cette pratique est encore assez récente. Nous les retrouvons aussi énormément dans les médias, et au fond c’est là le problème : sous couvert de scientificité, les chiffres se manipulent aisément et sont interprétés à tort et à travers, en omettant toujours d’analyser la marge d’erreur. Avec les sondages, on est plus dans l’information, mais dans le conditionnement et la fabrication de l’information.

    @blogueur influent :
    Il n’ y a aucun lien de causalité qui soit prouvé entre cannabis et schizophrénie. En tout cas “on” n’est pas une source valide, pas plus que les recherches qui assimilent corrélation et causalité.
    Assimiler le cannabis et l’alcool comme vous le faites est scandaleux, parce que ces substances ont des modes d’action fondamentalement différents et n’ont pas la même force de nocivité ni d’addiction.

    Les psychiatres cliniciens sont en plein débat sur cette question, leurs conceptions sont très différenciées, en pleine rédaction du DSM V.

    Certains comme vous assimilent toutes les substances sous l’angle de la dépendance, d’autres préconisent plus de différenciation entre drogue “douces” (cannabis) et “dures” (alcool, cocaïne, etc.).

    En tout cas je pense que le point de vue des psychiatres comportementalistes n’est pas suffisant quelle que soit l’hypothèse qui est choisie, car il est maintenant établi que la dépendance est une formation psychique structurelle provenant des évènements vécus les premiers jours de l’existence.

    De même, la schizophrénie est une structure psychique qui se met en place sur un terrain héréditaire, stimulée par l’environnement (molécules psychoactives, repères culturels et relationnels avec l’entourage) et les éventuels traumatismes qui prennent leurs racines dans la petite enfance. Le patient se retrouve face à un contenu émotionnel et des souvenirs qu’il ne maitrise plus.

    Si on peut observer une corrélation entre ces deux structures pathologiques, dépendance et schyzophrénie, il n’existe pas de lien de causalité prouvé, et on peut très bien penser comme il est dit dans cet article que c’est la schizophrénie qui va provoquer l’usage du cannabis. En effet, le repli autistique des schizophrène et la dissociation des émotions sont des défenses typiquement schizophrènes contre le monde extérieur, et parait logique, pour un schyzophrène, de chercher à renforcer ces défenses en utilisant le cannabis qui a justement comme effets le repli sur soi et la distance avec les émotions.

    Bien évidemment, la schyzophrénie est une structure pathologique profonde et très grave qui ne se limite pas aux symptômes du repli sur soi et de la dsitance avec les émotions.

    “Etre défoncé” ne suffit donc pas pour être qualifié de schyzophrène.

    Les psychiatres et les psychologues d’obédience comportementaliste confondent systématiquement les symptômes avec la structure psychique sans chercher ni la cause ni le sens de ces maladies psychiques.
    De cette manière, leur erreur peut se comprendre : comme ils ne prennent en compte que les symptômes, et que les effets du cannabis ressemblent de très loin à certains symptômes schizos, ils assimilent les deux alors que la dépendance et la schyzophrénie n’ont pas la même signification inconsciente, relève de personnalités et de structures différentes qui trouvent leur origine dans des périodes précoces de la toute petite enfance qui sont sans doute corrélées, mais néanmoins distinctes et mettant en Å“uvre des processus cognitifs et des fonctionnements neurophysiologiques qui n’ont rien à voir.

    Sur cette question, il est donc intéressant de consulter l’avis des psychiatres comportementalistes, mais aussi celui des psychiatres cliniciens et humanistes, des psychologues cliniciens et des psychanalystes, sous peine d’être condamné à quelques statistiques sans prise avec le réel pour répondre à cette question complexe, controversée et sans réponse définitive.

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • Blogueur Influent le 25 octobre 2010 - 20:29 Signaler un abus - Permalink

    Personnellement j’ai longtemps fait parti du lobby des pro-cannabis. Aujourd’hui je ne suis, en général, pas plus hostile que ça en dehors du massacre des poumons (qui ne suffit pas à expliquer le cancer de Gregory Isaacs qui vient de nous quitter avant l’âge de la retraite), qui ne me concerne plus, et du financement de la mafia.
    La plupart des gens vivent très bien le cannabis même si c’est un peu pathétique ou ridicule passé vingt-cinq ans, et je ne connais pas d’équivalent “cannabis” des alcooliques.
    Mais l’un et l’autre de ces psychotropes semblent avoir un effet sur le déclenchement de la schizophrénie chez les gens prédisposés (personne ne dit que le cannabis rend fou des gens sains d’esprit, en tout cas pas moi). Je sais bien que cela fait débat, mais pas assez scientifiquement j’en ai peur : de part et d’autre, les gens réagissent en fonction de ce qu’ils veulent croire. Reste que la souffrance des schizophrènes est quelque chose d’assez sérieux et mérite un peu mieux qu’un refus de comprendre les éventuels liens de causalité.

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • Berserk le 25 octobre 2010 - 22:26 Signaler un abus - Permalink

    Je comprend mieux votre discours, merci d’avoir nuancé votre réponse.

    Nous arrivons à être d’accord sur au moins un point : l’environnement moléculaire des schizophrènes, c’est à dire tous les produits auxquels ils sont exposés, a probablement un effet sur la formation et le déclenchement de cette pathologie.

    Mais je ne crois pas que cet effet puisse se résumer en une explication causale générale de la schizophrénie et de son déclenchement par une molécule particulière comme le cannabis.

    D’une part, il n’est absolument pas certain que le cannabis puisse déclencher une schizophrénie chez tous les individus présentant un terrain génétique ou développemental favorable. C’est là où je critique certains psychiatres, qui condamnent d’emblée le cannabis, alors que son utilisation peut être thérapeutique pour les malades en phase terminale par exemple, et que ses effets sont sous bien des aspects préférables à ceux de l’alcool pour la schizophrénie, et comparables à mon avis aux traitements souvent très lourds, véritables camisoles chimiques, qui sont trop souvent prescrits en surdose.

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • lao le 26 octobre 2010 - 9:23 Signaler un abus - Permalink

    Oui c’est exactement ça. L’exemple de la schyzophrénie est frappant.
    D’une manière générale si vous voulez avoir un bon exemple de la manipulation des résultats scientifiques penchez vous sur le cannabis.
    Tout est fait par les politiques pour exagérer les effets néfastes par des contorsions mentales totalement malhonnêtes.
    risque d accident mortel en voiture multiplié par 2 pour une conso d’alcool inférieur au taux légal. Risque multiplié par 1.8 après avoir fumer un joint. le seul résultat affiché par les pouvoirs publics est un risque multiplié par 15 en cas de polyconsommation.
    Bien sur il ne faut pas encourager les gens à fumer avant de prendre le volant mais quand on sait que quelqu un qui est à un taux d’alcool autorisé de moins de 0.5 est aussi dangereux voir plus qu un consommateur de cannabis (dont l’effet s’efface en 2 heures) et que l’on voit comment sont criminalisés les usagés on peut aussi se demander si il ne s’agit pas encore de la politique du bouc émissaire. (c’est pratique électoralement en plus puisqu on associe le shit ou le kif avec les français d’origine maghrébine qui sont très appréciés des gouvernements de droite bien sur et du français moyen)
    Aux états unis c’était les noirs et les mexicains avec la marijuana (qui est la même chose mais sous forme de fleurs).
    Bref pour la schyzophrénie regardez l’avis du dr Philippe Batel, addictologue français renommé.
    Merci pour votre article.

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • Blogueur Influent le 26 octobre 2010 - 9:36 Signaler un abus - Permalink

    Je trouve dommage que le Cannabis ne soit pas évalué pour ses possibles vertus thérapeutiques en France, ça c’est idéologique. Quand notre ministre de la santé laisse entendre que le cannabis mène à la folie, c’est aussi idéologique et non scientifique. En revanche quand les addictologues se penchent sur les risques de déclenchement de la schizophrénie liés à l’alcool ou au cannabis et constatent que certains psychotropes (anti-dépresseurs, cocaïne, morphine) ne semblent pas avoir d’incidence (même s’ils sont terriblement dangereux en tout), on est plus dans le débat scientifique.
    Ce qui pourrit un peu les choses, c’est que la discussion n’oppose pas des observations, mais juste des gens qui ont un rapport au cannabis : ceux qui fument, ceux qui ont fumé, ceux qui ont arrêté, ceux qui n’ont jamais essayé, etc.

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • Alcuinn le 10 octobre 2011 - 21:01 Signaler un abus - Permalink

    Intéressant, et logique: pourquoi faire quelque chose qui colle au plus près à la réalité (si c’est possible), quand on arrive à vendre un ‘produit’ qui ne vaut rien à prix d’or ?
    Quant à l’influence qu’ils ont, ça ressemble beaucoup à des prophéties auto-réalisatrices… (voir le billet que j’ai sorti à ce propos : http://www.alcuinn.fr/index.php/idees/4-sondages-proheties-autorealisatrices- )
    Mais bon, comme c’est souvent plus facile de croire que de douter de ce qu’on lit, on dirait bien qu’ils ont encore de beaux jours devant eux =)

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • 123 le 12 octobre 2011 - 0:00 Signaler un abus - Permalink
    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre
  • anne le 12 octobre 2011 - 17:32 Signaler un abus - Permalink

    (sur les sondages uniquement) :
    1) les sondeurs sont payés, les instituts de sondage ne vont pas leur offrir le tarif de nuit : les sondages se font dans la journée, donc : ne sont contactées que les personnes présentes près de leur téléphone la journée
    2) “l’échantillon représentatif” en ce qui concerne le milieu socio-professionnel, est celui du “chef de famille” : si le chef de famille est au boulot, c’est quelqu’un d’autre qui répondra “en son nom”….
    3) les numéros sont sélectionnés à partir d’annuaires périmés : ne seront jointes que les personnes qui n’ont pas déménagé dans l’année, donc probablement les moins mobiles.
    4) les sondeurs appellent des numéros de téléphones fixes : toute la partie jeune et mobile de la population, qui a un portable, est “hors champs” des instituts de sondage.
    Donc au total, outre les biais dénoncés dans l’article, la population sondée, quels que soient les soi-disant “quotas représentatifs”, est formée : des gens immobilisés chez eux, peu mobiles, pas tournés vers les (relativement) nouvelles technologies….

    • Vous aimez
    • Vous n'aimez pas
    • 0
    Lui répondre

Derniers articles publiés