vendredi 17 décembre 2010

Google numérise des milliards de mots pour décrypter l'histoire humaine

Le Figaro, no. 20646 - Le Figaro, vendredi, 17 décembre 2010, p. 14

Le site ouvert aujourd'hui fait la liste de tous les termes employés dans 5 millions de livres publiés depuis 1800.

« »Dieu n'est pas mort, mais il aurait besoin d'un bon service de communication. » C'est l'une des nombreuses conclusions à laquelle sont arrivés les chercheurs de l'université de Harvard (États-Unis) en interrogeant le corpus des 500 milliards de mots utilisés dans les 5 millions de livres numérisés par Google et plusieurs universités américaines (Science, 17 décembre 2010). Les livres couvrant pour l'instant une période allant de 1800 à 2000, on voit nettement que l'utilisation de ce mot s'effondre à partir des années 1860 jusqu'en 1900 et que, depuis, elle reste relativement stable mais ne décolle pas.

Quand Google a lancé en 2003 son projet de numériser tous les livres publiés à ce jour dans le monde, beaucoup ont crié au scandale et à la démesure. C'est l'un des prolongements logiques de ce travail colossal, un tout autre volet d'application que les chercheurs de Harvard présentent aujourd'hui, le jour même où les 5 milliards de mots sont mis en ligne (ngrams.googlelabs.com). Comme son grand frère Google Earth, le site est en accès libre. Il couvre pour l'instant cinq millions de livres numérisés, publiés entre 1 800 et 2000. Mais il est appelé à s'étoffer et va recevoir au fur et à mesure les mots des livres nouvellement numérisés. L'anglais a la part belle avec 361 milliards (Mds) d'entrées. Viennent ensuite le français et l'espagnol (45 Mds), l'allemand (37 Mds), le russe (35 Mds), le chinois (13 Mds) et l'hébreu (2 Mds).

« C'est phénoménal », reconnaît Jean Véronis, informaticien linguiste à l'université d'Aix-en-Provence. En 1980, quand les Anglais ont numérisé un corpus d'un million de mots (le British National Corpus, NDLR), c'était déjà considéré comme une révolution. Avec Google, on est dans un tout autre ordre de grandeur. »

Le corpus est gigantesque. « Lire les seules entrées de l'année 2000 à raison de 200 mots par minute demanderait plus de huit ans entiers sans aucune interruption. Si on écrivait tous les mots et les séquences de mots mis en ligne aujourd'hui cela représenterait dix allers-retours Terre-Lune », notent les chercheurs de Harvard qui ont conçu le projet et l'ont mis en forme. À leur tête, il y a Jean-Baptiste Michel, un jeune polytechnicien français de 28 ans, et Erez Lieberman Aiden, un mathématicien, physicien et philosophe américain.

Ils travaillent dans le plus grand secret depuis quatre ans à ce projet. C'est eux qui ont établi les algorithmes et les tables de fréquence qui permettent de faire parler tous les mots des livres numérisés, de saisir leurs trajectoires et d'essayer par ce biais de retracer l'évolution des sociétés et des cultures. Les chercheurs appellent cela la « culturomique », faisant ainsi référence à toutes les nouvelles sciences biologiques en « omique » (génomique, protéomique, métagénomique, métabolomique) qui se sont multipliées au cours de la période récente. La seule différence, cette fois, c'est qu'il ne s'agit pas de gènes ou de protéines qui ne font pas partie de notre univers familier mais des mots que même les enfants utilisent.

Seule contrainte : pour éviter tout problème de copyright, les chercheurs ont dû dépouiller les mots de leur contexte. On ne trouve donc dans le corpus de Google que des mots bruts, réduits à leur plus simple expression. Un point qui ne manquera pas de faire tiquer historiens et spécialistes des sciences humaines.

Jean-Baptiste Michel et son équipe donnent un rapide aperçu de ce qu'on peut retirer de ce nouvel outil. D'abord, ils peuvent compter les mots à travers l'histoire (ils l'ont fait pour l'anglais). Ils se sont aperçus ainsi que leur nombre ne cesse d'augmenter depuis les années 1900. Cette année-là, ils en ont dénombré 544 000 en tout, puis 597 000 en 1950 et 1 022 000 en 2000. « L'addition de 8 500 mots par an a augmenté la quantité de mots de plus de 70 % en cinquante ans », notent-ils.

Évidemment, les dictionnaires sont dépassés par cette avalanche de mots nouveaux. 52 % des mots utilisés dans les livres en 2000 ne figurent pas dans les deux principaux dictionnaires anglo-américains. Le responsable de l'un d'entre eux a d'ailleurs convenu qu'il ne pourrait plus se passer de ce nouvel outil. Même chose pour son confrère de l'Encyclopedia Britannica qui a collaboré de près avec les chercheurs de Harvard.

Le corpus permet de suivre l'évolution de la grammaire aussi bien que l'évolution de la durée de la célébrité d'un siècle à l'autre. « Les gens deviennent plus célèbres qu'avant mais ils sont oubliés aussi plus vite », écrivent les chercheurs.

Pour montrer l'intérêt de leur corpus, ils ont comparé en anglais et en allemand l'occurrence des noms d'artistes juifs comme Marc Chagall. En allemand, son nom disparaît entre 1936 et 1944, au plus fort du nazisme et de la persécution contre les Juifs. Ce type de recherche peut s'exercer dans tous les domaines, de la nourriture à la place des femmes dans la société en passant par l'innovation technologique, les maladies, les problèmes politiques, les guerres, etc. « C'est tous les jours un bonheur de travailler sur ce projet. On se sent un peu comme des explorateurs », témoigne Jean-Baptiste Michel. Il espère que le site aura bientôt de nombreux utilisateurs.

Yves Miserey

© 2010 Le Figaro. Tous droits réservés.

0 commentaires: