L’interprétation des graphiques produits par Ngram Viewer

Le 11 janvier 2011

Extrêmement séduisant au premier abord, Ngram Viewer n'est, pour Patrick Peccatte, qu'"un outil heuristique qui permet plus de poser de nouvelles questions que d’apporter des réponses."

Ngram Viewer [en] est un nouvel outil mis en ligne par Google le 16 décembre dernier [en]. Il permet de visualiser sous forme de graphiques les fréquences d’apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. Ce projet a été initié en 2007 par un mathématicien et physicien américain, Erez Lieberman Aiden [en]. Il a été soutenu par Google Labs et développé par des chercheurs de Harvard, en particulier Jean-Baptiste Michel, jeune polytechnicien français.

Apparition et évolution de la fréquence des mots télégraphe, téléphone, radio, télévision, Internet, internet en français de 1800 à 2008. Remarquez que l’outil distingue les majuscules et minuscules (‘Internet’ apparaît plus tôt que ‘internet’ et il est plus fréquent). Pour tous les exemples illustrés de ce billet, cliquez sur le graphique correspondant afin d’afficher la requête directement dans Ngram Viewer.

L’application contient actuellement les mots extraits de plus de 5 millions d’ouvrages, ce qui correspond d’après les développeurs à 4% des livres jamais publiés. Les ouvrages les plus anciens utilisés dans le projet remontent aux XVIème siècle mais la très grande majorité sont postérieurs à 1800.

Il s’agit en fait d’un énorme lexique interrogeable contenant plus de 500 milliards de mots et organisé en sous-lexiques par langue : anglais (361 milliards de mots = Mm) [différencié en anglais américain et britannique], français (45 Mm), espagnol (45 Mm), allemand (37 Mm), russe (35 Mm), chinois (13 Mm) et hébreu (2 Mm).

Sans trop entrer dans les détails techniques, les lexiques sont des tables composées de n-grammes, c’est-à-dire des séquences de mots apparaissant dans les ouvrages numérisés. L’outil met ainsi en œuvre cinq catégories de tables : monogrammes (mots uniques), bigrammes (deux mots qui se suivent)… , jusqu’aux 5-grammes (cinq mots successifs). Il n’est donc pas possible de connaître à l’aide de Ngram Viewer les fréquences d’apparition du vers de Verlaine De la musique avant toute chose qui comporte six mots. Par contre, on trouvera les deux séquences de cinq mots chacune De la musique avant toute et la musique avant toute chose dont les courbes représentatives affichées par Ngram Viewer sont manifestement corrélées.

Les lexiques sont mis à la disposition du public [en] selon la licence Creative Commons et sous la forme de fichiers au format CSV. Bien que très volumineux, ils sont donc facilement lisibles et l’on devrait ainsi voir apparaître de nouvelles applications les utilisant. À titre d’exemple, une ligne du lexique 5-grammes français se présente ainsi :

principes fondamentaux de la philosophie 1988 17 16 12

où la suite de mots principes fondamentaux de la philosophie est un 5-gramme, 1988 l’année de parution des livres analysés, 17 le nombre d’occurrences de la suite de mots dans l’ensemble des ouvrages de l’année en question, 16 le nombre de pages différentes et 12 le nombre de livres où la séquence apparaît. Aucune référence aux ouvrages analysés ne figure dans ces tables qui ne contiennent qu’une compilation de comptages d’occurrences.

Une masse de statistiques extrêmement sommaires et synthétiques

Ces différents sous-lexiques sont donc par construction totalement « autonomes », indépendants de Google Books. Il s’agit là manifestement d’un choix stratégique de Google qui aurait pu construire un outil beaucoup plus sophistiqué relié à sa base d’ouvrages numérisés. Le projet peut dès lors fonctionner sans qu’il soit nécessaire de mettre à la disposition des utilisateurs l’accès aux documents (initiative controversée comme on le sait). Mais ce choix comporte aussi un inconvénient majeur puisqu’il interdit de rechercher sur le voisinage plus éloigné des mots et empêche toute contextualisation des résultats (quel livre, quelle page, quel paragraphe contiennent telle suite de mots). L’utilisateur ne dispose que de statistiques extrêmement sommaires et synthétiques, mais il en voit énormément. On regrettera que les concepteurs n’aient pas facilité la tâche des analystes, ne serait-ce qu’en stockant dans chaque entrée de lexique les id Google Books des trois ouvrages qui contribuent le plus au nombre d’occurrences.

Les approximations de la reconnaissance de caractères (OCR) utilisée dans Google Books se retrouvent sur Ngram Viewer. Ainsi, la plupart des observateurs mentionnés dans la webographie sélective ci-dessous mettent en évidence l’évolution progressive de la graphie du s long – reconnu par l’OCR comme un f – vers la forme du s minuscule que nous connaissons actuellement.

La disparition progressive du s long : plufieurs, plusieurs, prefque, presque de 1750 à 1830 (français). À noter que l'évolution du mot "plusieurs" semble anticiper celle de "presque", peut-être sous l'influence du s final du mot.

De même, de nombreuses évolutions de graphies issues pour la plupart de diverses réformes de l’orthographe peuvent être visualisées très rapidement, et le résultat est souvent spectaculaire (exemples: mes parens, mes parents en français, quando, cuando en espagnol).

Mais on relève aussi de nombreuses erreurs d’OCR et surtout l’attribution de dates de publication erronées à des documents comme on peut le voir par exemple sur le mot Internet. La réédition de certains ouvrages est certainement la cause d’un grand nombre de ces erreurs. Pour Natalie Binder [en], il se pourrait même à terme que l’intérêt principal de Ngram Viewer consiste à identifier rapidement les erreurs d’OCR et de dates sur Google Books !

L’aspect purement lexical du projet qui ne distingue pas les polysémies rend de nombreuses recherches pratiquement impossibles (essayez d’afficher la fréquence des noms de saison en français par exemple).

La culturonomique, un nouveau champ d’application de la lexicométrie

L’équipe de développement de Ngram Viewer a publié dans la revue Science un article intitulé Quantitative analysis of culture using millions of digitized books [pdf, en] qui introduit le terme cultoromics (cultoronomique en français) pour désigner un nouveau champ d’application de la lexicométrie. Les auteurs ont aussi lancé un site web culturomics.org [en]. Amalgame de culture et de genomics [en], domaine dans lequel plusieurs membres de l’équipe dont Erez Aiden ont travaillé, cette activité prétend en quelque sorte mettre en évidence des évolutions culturelles sur de longues périodes à travers l’analyse de fréquence portant sur de très vastes corpus de mots.

Dans leur remarquable billet Prodiges et vertiges de la lexicométrie sur le blog Socioargu, Francis Chateauraynaud et Josquin Debaz s’interrogent sur la pertinence de certaines recherches ignorant les évolutions du sens des mots sur de longues périodes et émettent de sérieuses réserves concernant l’ambition culturonomique. À tout le moins, la tentative manifeste de créer une nouvelle discipline en la nommant d’après un champ de recherche de la biologie et sur une seule référence de publication dans un journal scientifique semble assez immodeste et pose problème. Je renvoie sur ces questions méthodologiques et épistémologiques à l’article de Socioargu ainsi qu’à ceux de Dan Cohen [en], d’Olivier Ertzscheid, et à la discussion sur Language Log [en].

La mise en ligne de Ngram Viewer a provoqué une profusion d’exemples postés sur différents sites ou blogs, très souvent sans aucun commentaires. Ils sont proposés sur un mode presque ludique, présentés sous un format antagonique (X vs Y), et comme si les courbes tracées suffisaient à mettre au jour de réels phénomènes linguistiques ou culturels. Quelques collections sont apparues (clic, clicclicclic, clic [en]) et il existe aussi une extension pour Chrome [en] permettant de donner directement la courbe de fréquences d’une entrée de Wikipedia en anglais.

Délicate et difficile interprétation

La facilité d’usage ne masque pas cependant le fait que l’interprétation de la plupart de ces graphiques est totalement impossible sans plonger dans l’analyse des documents numérisés sur Google Books. Or cette tâche est non seulement d’une ampleur colossale pour le moindre exemple de visualisation mais elle est tout simplement irréalisable en ligne puisque les documents sous copyright ne sont pas consultables. Les cas intéressants sur le plan « culturel » pour lesquels une interprétation probante peut être réalisée montrent des corrélations avec des événements historiques majeurs comme les deux guerres mondiales. C’est d’ailleurs l’un des exemples proposés par les auteurs de l’article de Science.

En l’absence de possibilité de vérification des hypothèses que l’on peut être amené à formuler sur une visualisation, l’utilisateur est laissé seul avec ses propres connaissances et intuitions en face du phénomène ou de l’artefact repéré. Comme le signalent les auteurs de l’article de Socioargu mentionné, cela signifie que l’investigateur doit d’abord « disposer d’une culture générale suffisante pour comprendre le positionnement relatif des mots dans le temps ».

Ngram Viewer doit en fait être considéré comme un outil heuristique qui permet plus de poser de nouvelles questions que d’apporter des réponses. Pour commencer à dépasser le stade du jeu avec Ngram Viewer, il serait intéressant de mettre en commun les efforts de groupes de spécialistes intéressés par un sujet en ouvrant des espaces de discussions sur des visualisations, créer en somme une véritable activité de travail collaboratif à partir des graphiques produits permettant de documenter et approfondir les résultats. Un début d’interprétation de ces vastes mais très sommaires lexiques pourrait alors être envisagé et ouvrir des champs de réflexion nouveaux pour les digital humanities.

Pour terminer, voici quelques exemples de résultats en relation avec des questions diverses abordées sur Culture Visuelle.

photographie, photo, photographies, photos (français, 1900-2008). Vers 1970, la forme abrégée "photo" devient plus fréquente que le mot "photographie".

image, picture, images, pictures (anglais, 1800-2008)

photographie argentique, photographie numérique (français, 1960-2008)

le savant, le chercheur, les savants, les chercheurs (français, 1780-2008). Note: les articles 'le' et 'les' permettent de minimiser l'impact du participe seul sur le résultat.

culture populaire, culture savante (français, 1800-2008)

NASA,NOAA,NIST,NIH,USGS,ARS,NSF,DARPA,NIEHS,USFS,USDA (anglais, 1950-2008). Le poids prédominant de la NASA dans la médiatisation de la recherche américaine.

événements de mai 1968, événements de mai 68, révolte de mai 1968, révolution de mai 1968 (français, 1960-2008). Les termes 'révolte' et 'révolution' présents dans les années 70 disparaissent. La forme non abrégée '1968' devient moins fréquente tandis que la forme abrégée '68' est légèrement plus présente.

Gitans, Romanichels, Tsiganes, Roms (français, 1900-2008). Exemple emprunté à Bibliothèques reloaded.

carte postale, cartes postales (français, 1870-2008)

Webographie sélective

En anglais

En français

Billet initialement publié sur Déjà vu, un blog de Culture Visuelle

Image CC Flickr Oberazzi

Laisser un commentaire

Derniers articles publiés