
Identifier comment chaque mot interagit avec les autres, c’est le principe de cette vaste carte sémantique que des chercheurs du CEA List ont commencé à mettre en place. Avec le soutien de la Fondation Jean-Luc Lagardère.
« Il s’agit de créer, en cinq ans, la cartographie sémantique complète d’une langue, explique Arnauld Leservot, responsable de l’équipe Réalité Virtuelle, Cognitive et Inter-faces du LIST (Direction de la recherche technologique du CEA), afin de décrire la façon dont tous les mots de cette langue sont reliés, avec quelle fréquence et dans quel contexte ». Cette formidable aventure de la connaissance, la Fondation Jean-Luc Lagardère a décidé de l’accompagner en finançant, chaque année, le travail d’un post doctorant pendant trois ans. Baptisé Wasp (pour Web-based Acquisition of Semantics and Pragmatics), ce projet a non seulement l’ambition de répertorier l’usage de tous les mots simples d’une langue, mais aussi et surtout d’identifier la façon dont ces mots se regroupent pour définir de nouveaux concepts. « Prenez l’expression “voiture de course”, raconte Gregory Grefenstette, le responsable scientifique du projet, en remettant la locution dans un contexte plus large, la nouvelle carte sémantique permettra de comprendre qu’elle a un sens différent de “voiture de location” et de relier ce sens au domaine sportif. »
Ce travail affiné de linguistique n’avait pu être mené à bien jusqu’alors. Il a fallu attendre l’apparition de l’Internet en 1994 pour le rendre possible. Car c’est le langage du web que les chercheurs utilisent pour analyser notre langue. « Un dictionnaire regroupe environ 150 000 mots. En 2004, le web comptait 13 milliards d’usages de mots pour le français et 80 milliards pour l’anglais. Cette masse de données peut être traitée par des ordinateurs et des logiciels de plus en plus performants, qui n’existaient pas il y a seulement cinq ans », remarque Gregory Grefenstette. D’ailleurs, son ambition ne se limite pas aux textes écrits. Il compte ouvrir le champ d’investigation à une source radio pour analyser aussi la langue « verbale ». C’est donc bien l’ensemble d’une langue qui va ainsi pouvoir être passé au scanner des scientifiques.
Si pour l’instant l’équipe de sept chercheurs dédiés au projet Wasp commence à travailler sur les langues française et anglaise, elle a d’ores et déjà l’ambition d’étendre ses recherches à l’italien, l’espagnol, l’allemand, le chinois, le japonais et l’arabe ! Mais, à quoi tout cela va-t-il bien pouvoir servir ?
Selon Gregory Grefenstette, les applications sont nombreuses, et certaines n’ont pas encore été imaginées. On sait déjà que cette analyse linguistique fine sera des plus utiles dans la traduction, notamment automatique, puisqu’elle s’effectuera non plus en fonction du seul sens des mots mais des utilisations les plus fréquentes de leurs associations.

Gregory Grefenstette, responsable scientifique du projet au CEA LIST
Le LIST, laboratoire d’exception
Au sein du Commissariat à l’Énergie Atomique (CEA), le Laboratoire d’intégration des systèmes et des technologies (LIST) focalise ses recherches sur les systèmes embarqués, les systèmes interactifs, les capteurs et le traitement du signal. Le LIST regroupe 450 chercheurs, ingénieurs et techniciens, et mène ses recherches en partenariat avec les grands acteurs industriels du nucléaire, de l’automobile, de l’aéronautique, de la défense et des technologies de l’information. Le LIST est membre de Digiteo Labs, premier parc français de recherche en sciences et technologies de l’information et de la communication, et partenaire des pôles de compétitivité SYSTEM@TIC PARIS-REGION, centré sur les systèmes complexes, et CAP DIGITAL, centré sur le contenu numérique.