Bienvenue dans la Soucoupe Digitale

« On l’a pas en format ordinateur »

Publié le 17 décembre 2009 par Nicolas Kayser-Bril

Nicolas Kayser-Bril, data journaliste et blogueur invité, propose un retour d’expérience sur un projet qu’il publiera au printemps prochain

Un projet de database journalisme commence toujours par la récolte des données. Très opportunément, plein d’organismes étatiques adorent collecter des données, que ce soit le nombre de plantations de kiwi dans le Tarn-et-Garonne (187 d’après Agreste) ou le nombre de menaces ou chantage dans le Nord (384 en octobre d’après Cartocrime).

L’administration adore les bases de données. Et souvent, elle ne rechigne pas à les mettre en ligne.

Là où le bas blesse, c’est qu’elle fait tout pour que ces données restent cloisonnées, en dehors du web. La preuve ? Impossible de faire un lien vers les ressources que j’ai citées plus haut.

Je travaille en ce moment sur un projet agrégeant des données départementales. Ce qui implique d’appeler chaque préfecture. A quelques exceptions près, les fonctionnaires transmettent les fichiers demandés (faut dire que ce sont des données déjà publiées hors-ligne).

La qualité des documents, en revanche, laisse à désirer. 20% des fichiers sont au format Excel. 10% au format Word. Le reste, du PDF. En enlevant les tableurs faits avec les pieds et en rajoutant les pdfs convertis depuis Excel, environ 25% des données sont structurées, c’est-à-dire lisibles par un ordinateur.

Exemple imaginaire :

Donnée non-structurée : « Les classes de CM2 de l’école du quartier Saint-Jean sont fermées pour cause de grippe A. Les élèves concernées sont priés de rester chez eux, sauf ceux inscrits à la chorale, qui pourront répéter à l’école Jean Moulin. »

Donnée structurée :

Au-delà du problème de la structuration des données, force est de constater que les administrations ont du mal à passer à l’informatique. Un nombre non-négligeable de préfectures, environ 10%, n’y comprennent tellement rien que j’ai eu du mal à ne pas mourir de rire au téléphone.

La palme de l’inefficacité revient à celles qui ont pris le temps de scanner des documents Word imprimés. Mais le meilleur reste cette réplique d’un charmant fonctionnaire d’Evreux : « Désolé, on l’a pas en format ordinateur ».

Ouvrir les données, c’est bien. Les rendre exploitables, c’est mieux. Dans la plupart des pays moins corrompus que la France, l’accès aux données est une question réglée depuis plusieurs années. Le nouveau débat concerne leur format et leur facilité d’accès.

Le Sénat américain propose le résultat des votes au format XML depuis mai dernier. Beaucoup plus simplement, le gouvernement suédois tente de rassembler en un même portail l’ensemble des bases de données de ses ministères en indiquant leur degré de structuration (opengov.se).

Le problème a apparemment été discuté à l’Opendata Barcamp à Paris vendredi dernier (mais pas moyen de savoir quelles en ont été les conclusions).

» Article initialement publié sur Databasejournalism

Des réponses intéressantes aux questions soulevées par l’auteur ont été ajoutées en commentaires /-)

  • Commentaires

10 Tweets

11 réactions à cet article

  1. mathemagie a dit, le 17 décembre 2009 à 7:58

    [#owni] « On l’a pas en format ordinateur » http://goo.gl/fb/V2pU

    Commentaire posté via Twitter

  2. cvaufrey a dit, le 17 décembre 2009 à 8:15

    RT @0wn1 #Owni « On l’a pas en format ordinateur » http://bit.ly/68UoBn très, très intéressant !

    Commentaire posté via Twitter

  3. RenaudGuerin a dit, le 17 décembre 2009 à 8:18

    RT @0wn1: #Owni « On l’a pas en format ordinateur » http://bit.ly/68UoBn

    Commentaire posté via Twitter

  4. isa2886 a dit, le 17 décembre 2009 à 8:23

    RT @cvaufrey RT @0wn1 #Owni « On l’a pas en format ordinateur » http://bit.ly/68UoBn très, très intéressant !

    Commentaire posté via Twitter

  5. jeromeflipo a dit, le 17 décembre 2009 à 8:35

    « On l’a pas en format ordinateur » http://j.mp/4AuiFc

    Commentaire posté via Twitter

  6. jeancharles a dit, le 17 décembre 2009 à 9:36

    « On l’a pas en format ordinateur » http://bit.ly/58e7Ii

    Commentaire posté via Twitter

  7. smeablog a dit, le 17 décembre 2009 à 9:50

    RT @isa2886: RT @cvaufrey RT @0wn1 #Owni « On l’a pas en format ordinateur » http://bit.ly/68UoBn très, très intéressant !

    Commentaire posté via Twitter

  8. darialalala a dit, le 17 décembre 2009 à 10:39

    RT @isa2886: RT @cvaufrey RT @0wn1 #Owni « On l’a pas en format ordinateur » http://bit.ly/68UoBn très, très intéressant !

    Commentaire posté via Twitter

  9. Kusanagi_ a dit, le 17 décembre 2009 à 10:42

    RT @darialalala: RT @isa2886: RT @cvaufrey RT @0wn1 #Owni « On l’a pas en format ordinateur » http://bit.ly/68UoBn très, très intéressant !

    Commentaire posté via Twitter

  10. Silvae a dit, le 19 décembre 2009 à 6:09

    « On l’a pas en format ordinateur » http://owni.fr/2009/12/17/%c2%ab-on-l%e2%80%99a-pas-en-format-ordinateur-%c2%bb/

    Commentaire posté via Twitter

  11. Le Dodo a dit, le 06 janvier 2010 à 1:38

    Bravo Nicolas, tes analyses sont toujours pertinentes ! Dommage en effet que l’on n’ait pas les conclusions du dernier data-camp. J’avais prévu d’y aller pour la Voix du dodo, mais ai eu un empêchement de dernière minute. Gardons l’oeil bien ouvert sur cette question de la mise à disposition des données publiques, c’est un sujet stratégique pour l’avenir du journalisme, et de la démocratie.
    Tatiana, alias le dodo.

2 lien(s) vers cet article (trackback)

  1. Les tweets qui mentionnent « On l’a pas en format ordinateur » | Owni.fr -- Topsy.com Dit :

    [...] Ce billet était mentionné sur Twitter par damien douani, Owni. Owni a dit: #Owni « On l’a pas en format ordinateur » http://bit.ly/68UoBn [...]

    [WORDPRESS HASHCASH] The comment’s actual post text did not contain your blog url (http://owni.fr/2009/12/17/%c2%ab-on-l%e2%80%99a-pas-en-format-ordinateur-%c2%bb) and so is spam.

  2. Data journalism : pourquoi les médias français ne s’y mettent pas ? « Database journalism Dit :

    [...] Sur ce sujet, l’expérience de Nicolas Kayser-Bril est édifiante voir les articles « On l’a pas en format ordinateur ». [...]

    [WORDPRESS HASHCASH] The comment’s actual post text did not contain your blog url (http://owni.fr/2009/12/17/%c2%ab-on-l%e2%80%99a-pas-en-format-ordinateur-%c2%bb) and so is spam.

Réagissez

Powered by WP Hashcash

Commentaires depuis sites tiers avec BackType

  • Kent25Maricela: I received 1 st credit loans when I was a teenager and that supported my relatives very much. But, I...
  • PedroOliveira_: RT @KavenBrassard: Twitter commence A vendre ses services aux médias http://bit.ly/beRdNP RT...
  • B. Majour: Il est tard/tôt, je vais donc répondre rapidement A vos questions Nicolas. Lionel a raison, car tout le...
  • Nicolas Henckes: Lionel Davoust est un peu rude, l’assimilation n’est pas faite A mon avis. Il n’y...
  • Melinfay: RT @sekkai00: Les VPN, les nouvelles “concessions” de liberté en Chine sur le Net | Owni.fr...
  • Vidkili: “Vraie” cartographie des territoires et frontières digitales RT@isa2886 http://bit.ly/dn0FbD...
  • sekkai00: Les VPN, les nouvelles “concessions” de liberté en Chine sur le Net | Owni.fr http://goo.gl/wwbI...
  • _Jeanne: RT @Atelier_medias: A lire : Frontières digitales http://bit.ly/9YHmHB Via #Owni Commentaire posté...
  • Atelier_medias: A lire : Frontières digitales http://bit.ly/9YHmHB Via Owni Commentaire posté via Twitter
  • lena7521: “Twitter est une drogue dure pour les journalistes” - Owni.fr http://bit.ly/ciKBIO Commentaire posté...

Propulseurs

Activité de la soucoupe

Édité par 22mars - Propulsé par wordpress - tous les contenus de ce site sont sous licence Créative Commons - Mentions légales Remonter sur Terre