Zoomer ou dézoomer? Les enjeux politiques des données ouvertes

Le 21 février 2011

Pour Dominique Cardon, le journalisme de données doit apprendre à se dézoomer lui-même: c'est la condition pour que la libération des données publiques soit véritablement pertinente. Afin que tout un chacun puisse se retrouver dans les chiffres.

Dominique Cardon, sociologue au Laboratoire des usages d’Orange Labs, est l’auteur de “La démocratie Internet” (Seuil/République des idées).

__

Le mouvement qui s’est constitué autour des “données ouvertes” et du “journalisme de données” ouvre un nouveau terrain au dialogue, déjà ancien, entre journalisme et sciences sociales1. La promotion du journalisme de données ne cesse en effet de vouloir faire du journaliste un chercheur en sciences sociales, doublé d’un informaticien et d’un infographiste. Certes, la révolution de l’information numérique, ses potentialités interactives, la multiplication des grandes bases de données, la participation du public et les nouveaux outils de visualisation créent un contexte tout à fait nouveau. Mais les chercheurs en sciences sociales reconnaîtront facilement leur travail quotidien dans certaines des promesses du journalisme de données : se coller devant des kilomètres de stats, de verbatim et d’archives [dire "données"] pour les interpréter [dire "narrativiser"] en produisant des corrélations parlantes [dire "storytelling"].

On ne peut que se réjouir de cette proximité, même si, faut-il le rappeler, le journalisme ne se résume pas à ce travail de mise en perspective documentaire et qu’il doit sa noblesse au rapport privilégié qu’il entretient avec l’événement en train de se faire – rôle dans lequel les sciences sociales ont toujours montré une inaptitude quasi constitutive. Les audaces créatives de l’opendata et du datajournalism aideront peut-être également les chercheurs à bousculer leur conservatisme, par exemple en partageant leurs données d’enquête (à l’instar de la récente banque de données qualitatives), en expérimentant des dispositifs participatifs de recueils d’information (à l’instar de l’enquête sociogeek sur la pudeur et l’impudeur en ligne ou du dispositif participatif de simulation de réforme fiscale) ou en inventant de nouvelles solutions graphiques pour représenter des informations complexes (à l’instar des recherches de la communauté Infovis).

Mais je voudrais tirer parti de ce nouveau terrain d’échange pour adresser au journalisme de données une question issue de l’expérience ancienne des sciences sociales dans l’usage critique des statistiques. S’il est assez discourtois de reprocher au jeune et ambitieux programme de l’open data sa croyance un peu naïve dans la “donnée brute”, il est, en revanche, plus important de porter attention aux effets moraux et politique des opérations critiques qui peuvent être menées dans l’espace public à partir des informations statistiques. Les riches débats qui entourent les données publiques et l’impératif de transparence ont l’intérêt de nous aider à mettre en perspective de nombreuses questions sur la place de la critique dans des sociétés de moins en moins opaques.

Secrets des coulisses, secrets des chiffres

Depuis Robert Ezra Park et l’Ecole de Chicago2, la connivence (et les disputes) entre les métiers de journaliste et de sociologue n’est plus à montrer et a déjà fait l’objet de mille et une discussions3. Un des liens qui rapprochent le journalisme et les sciences sociales est le travail critique de dévoilement des réalités cachées. Les proximités entre enquêteurs des deux rives se sont construites à travers le partage de techniques d’investigation permettant d’accéder à des faits dissimulés, recouverts par des discours d’autorité, des illusions plus ou moins bien fondés et d’innombrables stratégies de dissimulation4. Aussi n’est-il pas étonnant que ce soit du côté du journalisme d’enquête que les relations entre sciences sociales et journalisme aient été les plus fructueuses. Sociologues et journalistes d’investigation se sont d’ailleurs souvent retrouvés pour dénoncer ensemble (par exemple chez Acrimed) le “journalisme de connivence”, relayant sans distance les discours officiels et racontant sans mise en perspective les petits faits de l’actualité.

Dans cette pratique partagée de la révélation, il faut cependant distinguer deux techniques de dévoilement différentes : la publication des secrets logés dans les coulisses du pouvoir et celle des “vérités” cachées dans les chiffres des statistiques. Pour l’essentiel, les articulations entre journalisme et sciences sociales se sont faites autour des secrets arrachés aux coulisses du pouvoir et à l’intimité des puissants. Le dévoilement d’un écart entre la scène et les coulisses, l’officiel et l’officieux, même s’il a pris des formes différentes dans le monde du journalisme et dans celui des sciences sociales, partage une même visée : révéler au public des liens, des pratiques, des relations qui ne sont pas visibles de tous. Les sociologues dévoilent des systèmes d’intérêts, des réseaux de proximité, des héritages historiques qui rendent plus complexes, moins attendus et plus solides l’explication des faits sociaux. Le journalisme d’investigation écoute dans les coulisses, récupère des documents cachés ou reçoit des confessions anonymes pour révéler les motifs et les logiques qui président aux événements que d’autres décrivent naïvement en prenant les propos des acteurs pour argent comptant. A sa manière, WikiLeaks s’inscrit dans cette longue tradition de la révélation des secrets de coulisses. Sa principale nouveauté est d’“amateuriser” les sources de secrets. Désormais, ce ne sont plus seulement les puissants choyés par les journalistes d’investigation (avocats, juges d’instruction, responsables en position de dissidence institutionnelle) qui livrent des informations de coulisse, mais aussi des acteurs de rang subalterne ayant accès aux bases de données numérisées de leur institution qui les font “fuiter” vers le grand public – tout au moins lorsque les professionnels de l’information ne servent pas de filtre comme ce fut le cas avec les câbles de la diplomatie américaine.

Mais il est une autre forme de dévoilement, longuement travaillée par les sciences humaines, et consistant à révéler des “vérités” cachées dans les chiffres. En s’appuyant sur les solides instruments de mesure mis en place par les institutions publiques, en produisant des méthodologies de recueil de données rigoureuses, le travail statistique des sciences humaines cherche à faire apparaître des corrélations et des faits de structure susceptibles d’éclairer nos sociétés sur ses mécanismes de fonctionnement ; mécanismes parfois méconnus et, plus souvent, niés. Ce que les chiffrent révèlent alors, ce sont des inégalités de distribution, des déplacements de répartition, des corrélations entre variables hétérogènes (par exemple, entre la réussite scolaire des enfants et l’origine sociale des parents). Parfois, les journalistes s’emparent des statistiques de l’INSEE pour traiter toute sorte de sujet : les inégalités entre hommes et femmes, la distribution des revenus, ou l’accès différencié aux équipements culturels. Certes, la vulgarisation du travail statistique mené dans les laboratoires de sciences humaines n’a pas attendu la révolution numérique. Mais, la relation des sciences sociales et du journalisme n’a pas connu auparavant le même degré d’intimité. Les rôles étaient en effet jusqu’à il y a peu clairement séparés. Le chercheur était considéré comme une source comme les autres montrant au journaliste ses tableaux et en proposant un commentaire vulgarisé afin de faciliter le travail des infographistes. Il était rare que les statisticiens appartiennent pleinement aux rédactions, comme le montrent Eric Dagiral et Sylvain Parasie dans une recherche à paraître retraçant l’histoire des premières pratiques américaines du journalisme de données à Chicago.

Les données complètes contre l’échantillon représentatif

L’accès public à des masses de données brutes, numérisées et normalisées, bouleverse ce partage des rôles et invite à réfléchir sur la nature des opérations critiques qu’il est désormais possible de conduire dans l’espace public à partir de données statistiques partagées par tous. La démocratisation de l’accès aux données et de l’interprétation statistique vient bousculer les habitudes des professionnels des grands nombres. Traditionnellement, les usages de la statistique promus par les sciences sociales révèlent des structures et effacent les individus. Ces derniers n’existent qu’à travers les catégories sur lesquelles s’appuie le raisonnement interprétatif du sociologue, du démographe ou de l’historien. Mais les personnes intéressent beaucoup moins que le système qui les fait agir en raison de certaines de leurs propriétés catégorielles : un tableau croisant des variables rend possible une critique systémique, ce que ne peut faire une simple liste d’individus statistiques.

Ce mode d’interprétation s’appuie sur (au moins) deux piliers. En premier lieu, il ne peut se déployer qu’à l’intérieur d’un consensus sur les catégories conventionnelles décrivant les propriétés des individus statistiques. Une partie du rôle politique de l’institution statistique est de produire un répertoire catégoriel suffisamment stable et appropriable pour que la société parvienne à se décrire selon ce système d’équivalence. Cette stabilité catégorielle, même si elle est arbitraire, permet de débattre, de confronter des arguments, de mesurer des effets et de critiquer l’ordre social5. En second lieu, les techniques d’échantillonnage qui permettent de considérer qu’une partie des données vaut pour le tout, sont souvent privilégiées au dépens des bases supposément “complètes” de données – à tel point qu’il est fréquent de “redresser” les données dites “complètes”, ou “brutes”, afin de corriger les biais d’enregistrement inhérents aux procédures de recueils des données. Il n’est pas nécessaire de disposer d’une base de données granulaire des populations pour tenir un discours critique sur la société.

Or, en privilégiant les individus sur les structures, le mouvement des données ouvertes et celui du journalisme de données ne portent guère intérêt à ces deux piliers de l’interprétation statistique. Ils s’orientent même parfois dans une direction opposée. Hétérogènes, diverses, locales, produites à d’autres fins, les catégories de certaines des données “libérées” sont rarement interrogées et recodées dans un système conventionnel permettant de garantir la cohérence des interprétations qu’en feront ses usagers. Par exemple, rendues publiques, les catégories indigènes du travail policier ou hospitalier, seront interprétées dans un contexte tout autre. Ce déplacement peut entraîner bien des malentendus pour tout ceux qui ne sont pas familiers de l’usage finalisé et contextuel de ces catégories par les professionnels qui les manipulent.

Par ailleurs, le mouvement des données ouvertes refuse les techniques d’échantillonnages au profit d’une visée d’exhaustivité complète et de granularité la plus fine possible des données. Peu importe que la base de données soit représentative du phénomène qu’elle enregistre, il est préférable qu’elle soit la plus complète possible, “brute”. L’exigence de complétude et de granularité que porte le mouvement des données ouvertes est nourrie par une revendication de transparence à l’égard des institutions productrices de données, lesquelles cachent parfois dans leurs tiroirs des secrets de fabrication, des techniques de redressement et des opérations de recodage. Elle se renforce de l’ambition de rendre les données au public en lui facilitant une entrée “individuelle” dans les bases d’information. Mais ce faisant, on se préoccupe moins de composer des agrégats représentatifs susceptibles de porter des critiques systémiques dans l’espace public. En perdant le lien avec l’idée de représentativité, la préférence accordée aux données complètes et “brutes” sur les données échantillonnées entrave le chemin permettant de “remonter” de l’individu vers la structure.

La circulation du local au global

Or l’enjeu démocratique du journalisme de données et des données ouvertes est de savoir comment circuler sur le chemin du local au global avec les nouveaux outils dynamiques de visualisation. Faut-il regarder les individus ou les structures, zoomer ou dézoomer ? Sur quel type de données, et à propos de quel type d’acteur, doit-on favoriser cette circulation des interprétations ? A toute fin de simplification, distinguons les bases de données qui concernent les activités des puissants et celles qui enregistrent des activités sociales de tous. Dans le premier cas, les données portent sur ceux qui font l’actualité, dans le second, elles enregistrent la place de l’utilisateur à l’intérieur de la société.

Les expériences parmi les plus réussies de données ouvertes proposent de zoomer/dézoomer les activités des puissants. En visualisant le travail parlementaire de chaque député (nosdéputés.fr) ou en cartographiant la composition chimique des produits industriels (sourcemap), l’opération de dévoilement critique est circonscrite à l’espace des puissants, hommes politiques ou industriels, qui sont redevables d’une surveillance citoyenne vigilante. L’effet de comparaison entre le comportement d’individus singuliers et celui de l’ensemble de leur catégorie permet des évaluations, des mises en équivalence et des notations qui exercent un effet critique incontestable. Ces critiques peuvent, par ailleurs, aisément prendre appui sur des attentes partagées et publiques relatives à ce que devrait être le comportement des hommes politiques ou des industriels. A bien des égards, ces dispositifs de traitement des données publiques nourrissent et renforcent les formes de l’enquête d’investigation en rendant beaucoup plus ouvert et démocratique le contrôle des citoyens sur les coulisses du pouvoir. Dans le même esprit, beaucoup d’autres expériences journalistiques mettent en lumière des données permettant une lecture enrichie des événements : liste des clients de Madoff, données complètes et cartographiés des soldats américains morts en Irak, comparaison graphique des réductions d’effectifs des municipalités travaillistes ou conservatristes, pour ne prendre que des exemples des très innovants Visualisation Lab du New York Times et Datablog du Guardian.

SourceMap

Nosdéputés.fr

Mais une partie de la “demande sociale” qui revendique un accès plus ouvert aux données publiques formule aussi d’autres attentes à l’égard des statistiques. En reconstituant l’histoire et les différents promoteurs du mouvement des données ouvertes, Valérie Peugeot a montré que celui-ci épousait les intérêts de multiples acteurs économiques, dont les médias ne sont qu’une infime partie, pour développer des services pratiques dirigés vers les utilisateurs. Le premier réflexe de tout utilisateur de Google Earth est de partir du globe terrestre pour zoomer sur son propre lieu d’habitation. Le public voudrait “se” voir sur la carte, se comparer dans le tableau, se situer au sein de son quartier. C’est l’individu qui est alors le point d’entrée de toute navigation dans la base de données. Il “customise” la vue qu’il va construire pour établir des comparaisons, des croisements, des corrélations entre les séries de données qui lui seront accessibles. En cela le discours des données ouvertes emprunte tous les ressorts rhétoriques des dynamiques d’individualisation du web social pour imaginer un utilisateur qui cherche et dessine sa propre histoire à l’intérieur de bases de données “agnostiques”.

Lorsque la circulation dans les données ne se fait pas dans le monde des puissants, mais dans celui de tout un chacun, cette entrée individuelle dans les chiffres se place moins dans l’horizon de la critique sociale, de la connaissance ou de la découverte que dans celui des intérêts personnels de l’utilisateur. Il n’est pas indifférent à ce titre que les expériences les plus significatives d’ouverture de données statistiques individuelles soient les cartes des crimes, des revenus, des appartements, ou relatives à la santé, la pollution ou encore des métriques mesurant l’efficacité des administrations pour équiper, surveiller ou nettoyer. Il est aussi significatif que, parmi les différents artefacts de visualisation, la carte du territoire se soit substituée à la liste pour favoriser une entrée individuelle dans les données, tout en préservant (relativement) les informations nominatives. La carte zoomable/dézoomable est devenue le principal instrument de navigation des services cherchant à donner des informations pratiques aux lecteurs. L’utilisateur n’est plus confronté à des informations sur d’autres que lui, mais, se trouvant lui-même dans les données, simple point sur la carte, il interprète le monde depuis la position qui lui est réservée par les chiffres. Et parfois,  lorsqu’il dézoome, il ne voit pas des catégories mais de gros nuages formés des points de ses semblables.

Crise des catégories, crise de la critique

C’est parce que les catégories qui nous servaient à décrire et à “faire tenir” la société connaissent un affaiblissement que nous faisons désormais reposer une grande part de la critique sociale sur la dénonciation des agissements individuels6. Lorsque les catégories (socioprofessionnelles, d’activités, de statut, etc.)  ne permettent plus aux individus d’identifier la société dans laquelle ils vivent, il est beaucoup plus difficile de mobiliser des théories de la justice pour exercer une critique politique de la répartition des pouvoirs et des ressources entre groupes sociaux, territoires et conditions de vie. Le reproche qu’adresse de façon implicite le mouvement des données ouvertes aux pratiques habituelles des statisticiens est de produire des tableaux de la société si désincarnés qu’ils n’attirent plus l’attention du public. En revanche, représentées et questionnées autrement, ces données peuvent “parler” au public si l’on accepte qu’elles parlent d’abord de chacun à chacun. En cela se manifeste bien l’individualisation du rapport à la société et la mise en crise des explications catégorielles et systémiques.

La personnalisation de la critique pose des problèmes spécifiques quand elle s’applique au monde des puissants. La question de savoir s’il faut rendre public les comportements des individus en les désignant nominativement (politique dite du “Naming, blaming, claiming7) ou porter seulement intérêt au système qui les fait agir ainsi a longtemps constitué un nœud de la polémique entre journalistes et sociologues. La pratique de l’anonymisation dans les sciences sociales, appliquée même aux puissants, constitue un garde-fou pour préserver la critique systémique de la dénonciation ad hominem. Dans un livre récent sur la corruption et le favoritisme des élites, Pierre Lascoumes et ses collègues ont systématiquement masqué les noms des élus dont ils détaillent pourtant les agissements par le menu. Mais cette pratique s’est quelque peu érodée dans les travaux de sciences sociales au bénéfice d’une lecture de plus en plus nominative des faits et gestes des puissants. S’il lui est parfois reproché de favoriser les théories du complot et d’individualiser les responsabilités des gouvernants, cette critique personnalisée du pouvoir est aujourd’hui au cœur d’initiatives parmi les plus originales en sciences sociales pour rendre compte de la complexité des réseaux d’acteurs qui façonnent les institutions, les politiques publiques ou les décisions politiques, ainsi qu’en témoigne les cartographies de controverses initiées par Bruno Latour à Sciences Po.

Mais quelle forme prend l’usage critique des statistiques lorsqu’il s’exerce à un niveau local dans l’environnement personnel des individus ? Mon quartier est-il protégé des criminels ? La valeur immobilière de ma rue est-elle en train de croître ? Le service de nettoyage de ma mairie est-il efficace ? Les écoles de mon quartier ont-elles un bon taux de réussite ? Vues sous cet angle personnalisé, les données guident vers une lecture individualisée et consumériste dans laquelle ce ne sont plus les puissants qui sont soumis au regard citoyen, mais les fonctionnaires, les acteurs locaux, les voisins et les proches. En navigant dans les données en caméra subjective, la dénonciation reste locale et s’occupe principalement de responsabiliser les acteurs du bas de l’échelle. Sorte de Naming and blaming de voisinage, l’interprétation ne cherche pas à remonter la chaîne des causes vers les effets structurels, les politiques publiques ou les décisionnaires. Elle reste prisonnière des intérêts des individus et de leur capacité à faire des choix personnels en fonction des variables sur lesquelles ils ont un pouvoir d’action. A l’instar des classements des services éducatifs ou de santé, la publication des données ouvertes renforce alors les inégalités entre ceux qui disposant des bonnes informations sur leur cadre de vie ont aussi le pouvoir d’agir sur ces variables et ceux qui accédant aux bonnes informations n’ont aucun moyen d’échapper à leur sort.

Le site de cartographie des crimes de la police britannique demande à l’utilisateur d’entrer dans la base de données en tapant son code postal.

Soyez sympa, dézoomez

Se dessine ainsi deux horizons possibles de l’ouverture élargie des données : portant sur les puissants, elle permet aux citoyens d’exercer une vigilance documentée, précise et ciblée sur les figures publiques ; s’appliquant à tout le monde, elle encourage tout un chacun à optimiser ses décisions personnelles dans une logique de choix rationnel. Les données ouvertes et le journalisme de données enfantent deux projets politiques apparemment opposés : la démocratisation de la démocratie représentative et le renforcement des logiques de concurrence entre individus. Sans doute ces deux projets ne sont-ils pas si contradictoires. Ils témoignent tous deux d’un rapport personnalisé aux représentants comme à ses propres intérêts. Mais il n’est pas du ressort des promoteurs des données ouvertes et du journalisme de données de choisir entre ces deux directions, puisque c’est aux utilisateurs qu’il est confié le soin d’interpréter les données dans un sens ou dans un autre. Cependant le choix des bases de données rendues publiques, la manière dont elles sont mises à disposition et les propositions d’interfaces et de navigation qui sont faites ne sont pas sans conséquences politiques.

Parmi ces différents arbitrages, un des plus importants est de préserver le lien entre le zoom (l’entrée subjective dans les données) et le dézoom (la statistique catégorielle). A trop vouloir zoomer ne risque-t-on pas de perdre le bénéfice critique de la vue d’ensemble ? Le zoom permet aux individus de se voir, mais ne leur permet plus de critiquer s’il n’est pas associé à un travail de catégorisation ou à une visualisation des chaînes d’interdépendance entre les différents acteurs. L’enjeu démocratique auquel le mouvement des données ouvertes est confronté est donc de préserver le lien entre le local et le global, de conserver les liens qui font tenir ensemble les actions de chacun au système.

Un certain nombre de visualisations de données encourage cette articulation. Un outil du New York Times permet par exemple aux utilisateurs de comparer leur situation professionnelle avec celle de ceux de leur catégorie d’âge, de diplôme, de race, de sexe, etc. qui sont au chômage. L’utilisateur peut ainsi faire un aller-retour entre sa position personnelle et celle de sa catégorie. Un outil britannique développé sur Facebook, UK Crime Statistics Quizz, demande aux utilisateurs de répondre à un questionnaire sur leur propre perception du risque d’insécurité dans leur vie personnelle, avant de leur permettre de visualiser les informations statistiques mesurant la « réalité » des actes d’incivilité dans leur quartier. Ce détour permet aux utilisateurs de se détacher de leur représentation spontanée de l’insécurité en la confrontant à une vue statistique globale des actes d’incivilités. Le dispositif permet ainsi de « dégonfler » les effets de grossissement suscité par la peur8. Ce genre d’outils présente l’intérêt de baliser un chemin entre les individus et des catégories de description de la société. Il évite ainsi la logique consumériste d’une mise en concurrence des individus.

Apprendre à se dézoomer soi-même est un trait sociologique de nombreuses pratiques du web aujourd’hui. Cette mise à distance nourrit de façon théâtrale la mise en scène de soi sur les plateformes relationnelles. Elle invite les internautes au recul réflexif, afin qu’ils évaluent les informations personnelles qu’ils publient ou qu’ils gardent pour eux. Elle les pousse à se mettre à la place des points de vue opposés au leur pour trouver des compromis dans les espaces de production coopérative de contenu comme Wikipedia. Cet apprentissage du dézoomage devrait aussi nourrir la manière de s’approprier l’information statistique du journalisme de données : se retrouver soi-même dans les chiffres pour mieux comprendre comment nous faisons société.

__

Crédits photo: Flickr xJasonRogersx,

  1. Sur cette question, comme sur toutes les questions relevant des usages sociaux des nombres, voir: Alain Desrosières, La politique des grands nombres : histoire de la raison statistique, Paris, La Découverte, 2000. []
  2. Robert Ezra Park, Le journaliste et le sociologue (avec les commentaires de Cécile Deniard, Géraldine Muhlmann et Edwy Plenel), Paris, Seuil, 2008 ; Sylvain Bourmeau, “Journaliste et sociologue. Robert Ezra Park et la presse”, Politix, vol. 1, n°3-4, 1998, p. 50-61. []
  3. Vincent Goulet, Philippe Ponet, dir., “Journalistes et sociologues. Retour sur des luttes pour ‘écrire le social’”, Questions de communication, n°16, 2009. []
  4. Cyril Lemieux, Mauvaise Presse. Une sociologie compréhensive du travail journalistique et de ses critiques, Paris, Éditions Métailié, “Leçons de choses”, 2000. []
  5. Alain Desrosières, Laurent Thévenot, Les catégories socio-professionnelles, Paris, La Découverte, 2002 ; Luc Boltanski, Laurent Thévenot, “Finding One’s Way in Social Space: A Study based on Game”, Social Science Information, 22 (4-5), 1983, p. 631-680 []
  6. Dominique Cardon, Jean-Philippe Heurtin, “La critique en régime d’impuissance”, François (Bastien), Neveu (Eric), dir., Espace public mosaïque, Rennes, Presses Universitaires de Rennes, 1999, p. 85-119. []
  7. William L. Festiner, “The emergence and transformation of disputes: Naming, Blaming, Claiming”, Law and Society Review, 15, 1980. []
  8. Valérie Peugeot, “Les enjeux publics, économiques et citoyens de l’ouverture des données : l’expérience britannique”, Communication à “Document numérique et Société”, Aix-en-Provence, 15-16 novembre 2010. []

Laisser un commentaire

Derniers articles publiés