Hello Marcel !

Le 18 mars 2010 Léo Gourven

Analyser À la recherche du temps perdu à l'aide des outils de visualisation de données : voilà le projet original entamé par Léo Gourven, étudiant à Hetic. Il explique sa démarche, que vous pourrez suivre sur son blog Data_Proust et fait appel aux bonnes volontés pour l'aider.

Des statistiques hum hum, intéressant.

Analyser À la recherche du temps perdu à l’aide des outils de visualisation de données : voilà le projet original entamé par Léo Gourven, étudiant à Hetic. Il explique sa démarche, que vous pourrez suivre sur son blog Data_Proust et fait appel aux bonnes volontés pour l’aider.

Je travaille depuis un petit mois sur un drôle de projet. Je me remettais doucement de la lecture de A La Recherche Du Temps Perdu de Marcel Proust et parallèlement, je travaillais dans le cadre de mes études autour d’un projet lié aux visualisations graphiques. Alors je me suis dit (innocemment) : pourquoi le petit Marcel n’aurait pas droit à sa data visualization ?

Et au fur et à mesure je me suis rendu compte que l’œuvre de Proust justifiait tout particulièrement cette approche scientifique barbare :

Le roman est immense ! 1,5 millions de mots !
C’est un roman fleuve, il va de l’enfance à la mort.
L’écriture de Marcel Proust est quasi scientifique. Il suit une sorte de recette, on avance par étape.
Tout le monde connait Proust ! (et personne ne l’a lu). Et tout le monde se demande depuis ses 4 ans si ses phrases sont si longues que ce l’on raconte ?
Libre de droit et numérisé.

J’ai (re)découvert que dans les années 80 (quand je n’étais même pas né quoi), un certain Brunet Étienne avait déjà travaillé sur le sujet, mais en se concentrant sur l’aspect statistique (les occurrences les plus répétées, nombre de mots, de phrases etc). Ce n’est pas énorme (ça l’était pour l’époque), mais c’est déjà extrêmement intéressant.

Dans mon cas, une des premières choses à faire, c’est transformer l’information en donnée structurée (J’avais l’habitude de faire le contraire mais bon). C’est-à-dire mettre la Recherche dans une base de données, séparer chaque phrase, l’identifier et – dans un second temps- l’enrichir (De quel tome vient-elle ? Où se déroule l’action de cette phrase ? Quel temps est utilisé ?).

À partir de là, je pourrai opérer quelques traitements statistiques, a priori je débuterai par une étude du nombre de mots par phrase. Mais l’intérêt de cet outil prendra tout son sens une fois que l’on pourra superposer le nombre de mots par phrase avec les lieux, les éléments clés de l’action, etc. (Ce qui permettra de répondre à des questions du type : de quelle manière évolue la longueur des phrases en fonction face à la mort de sa grand mère ?)

Mais pour cela il faut que je trouve un outil d’analyse linguistique qui puisse me séparer mes phrases (Pas si simple qu’il n’y parait). Si quelqu’un maitrisant ce domaine arrive sur ce blog, j’ai besoin d’aide ! Envoyez moi un mail !

En bref, je vous raconterai sur ce blog comment mon projet avance, je causerai technique, je diffuserai mon code, je vous appellerai à l’aide mais je ne vous dirai pas que je suis fatigué !

Billet initialement publié sur Data_Proust

ACTA : le gouvernement français doit rendre des comptes

Comment (ne pas) sauver les journaux

Facebook♥ Twitter♥ ♥ RSS

3
commentaires Fermer

Laisser un commentaire

Derniers articles publiés

Une Vive Internet! Inédit • 14 décembre 2012

[Infographie] 10 ans de Creative Commons

par Sabine Blanc

Cette semaine, Creative Commons fête ses dix ans dans le monde entier. Une décennie d'alternative à une vision maximaliste de la propriété intellectuelle qui a su conquérir le grand public. Owni, un des rares médias en CC en France, vous retrace cette histoire en une infographie interactive.

Twitter Facebook 188

creative commons, droit d'auteur, Lawrence Lessig

Graphisme Chronique • 14 décembre 2012

Charte de confidentialité : des icônes pour informer

par Geoffrey Dorne

Personne - ou presque - ne lit les politiques de confidentialité. Pour simplifier les choses et rendre compréhensible ce que fait chaque site avec vos données, designers, citoyens et experts soutenus par la fondation Mozilla ont mis en place une liste d'icônes. Tour d'horizon de l'initiative.

Twitter Facebook 223

Art, CGU, création, design, graphisme, icone, icônes, picto, pictogramme, vendredi-graphism, vie privée

droit Chronique • 14 décembre 2012

Les Creative Commons hackent le droit d’auteur !

par Lionel Maurel (Calimaq)

Toute la semaine, ce sont les dix ans des Creatives Commons. L'occasion pour notre chroniqueur Calimaq de revenir sur le projet : réussites, limites et défis à relever.

Twitter Facebook 344

#cc10, creative commons, droit d'auteur, licences libres

Une Vive Internet! Édito • 13 décembre 2012

Offrez-vous un Owni

par Media Hacker

Des milliers de témoignages de réconfort et de soutien, et beaucoup évoquant le souhait de participer financièrement. Il nous reste à déterminer si cette somme de bonnes intentions peut effectivement transformer notre modèle économique et faire vivre le média.

Twitter Facebook 602

42, financement, Internet, médias, owni

Presse Enquête • 13 décembre 2012

Google : chêne ou roseau?

par Andréa Fradin

Google et les éditeurs de presse belges ont enfin trouvé un accord. Pour Le Monde, cela veut dire que "la presse peut faire plier Google" et que les titres français peuvent espérer profiter d'un effet "boule de neige". En fait, c'est un poil plus compliqué. Explications.

Twitter Facebook 78

belgique, Copie presse, éditeurs de presse, Google, IPG, Laurent Joffrin, lex google, médiation

L'auteur

Léo Gourven

En savoir +

Tags pour cet article:

datajournalism, littérature, Marcel Proust

Du même auteur:

Webjam: le palmarès

Dans le cadre du WIF de Limoges se déroulait le Webjam, une compétition de webdesign dans laquelle les concurrents n'avaient que 24 heures pour développer leur projet. La soucoupe y était et revient sur le palmarès.

Raw Data_proust now !

Léo Gourven a un projet fou: analyser À la recherche du temps perdu à l’aide des outils de visualisation de données. Il nous tient informé des dernières évolutions, notamment en ce qui concerne la transformation du texte en base de données.

Voir tous les articles