Prolex

Le projet Prolex, piloté par le Laboratoire d'informatique (LI) de l'université François-Rabelais de Tours, a pour but de fournir, à la communauté du traitement automatique des langues (Tal), des connaissances sur les noms propres, qui constituent, à eux seuls, 10% des textes journalistiques. Ceci par la création d'une plate-forme technologique comprenant un dictionnaire électronique relationnel multilingue de noms propres (Prolexbase), des systèmes d'identification des noms propres et de leurs dérivés, des grammaires locales, etc.

La ressource Prolexbase est un projet Tal du LI, en collaboration avec :

  • Le groupe de recherche Langues et Représentation (L&R) de l'université François-Rabelais
  • L'université de Belgrade.

Ce projet a reçu le soutien :

  • De l'action Technolangue du Ministère de l'Industrie.
  • Du programme d'action intégré Egide Pavle-Savic du Ministère des Affaires étrangères.

Prolexbase

La modélisation du domaine des noms propres définie dans le projet Prolex repose sur deux concepts centraux : le nom propre conceptuel et le prolexème. Le nom propre conceptuel ne représente pas le référent, mais un point de vue sur ce référent. Il possède dans chaque langue un concept spécifique, le prolexème, qui est une famille structurée de lexèmes. Autour d'eux, sont définis d’autres concepts et des relations (synonymie, méronymie, accessibilité, éponymie, etc.). Chaque nom propre conceptuel est en relation d’hyperonymie avec un type et une existence au sein d’une ontologie.

Il n'est pas évident de définir la notion de nom propre. La plupart des définitions insistent sur le caractère unique de son référent et sur une sémantique et une syntaxe qui lui est propre. Nous avons choisi d’adopter le point de vue de (Jonasson, 1994) qui propose une définition plus large incluant ce qu'elle appelle les noms propres purs (noms de personne et noms de lieu) et les noms propres descriptifs qui résultent souvent de la composition d’un nom propre avec une expansion (Tour Eiffel, musée Rodin, etc.). Un nom propre descriptif peut être considéré comme une expression définie figée ou en cours de figement (Jardin des Plantes, Médecins sans frontières, etc.). Cette définition est assez proche de celle utilisée dans le domaine du Tal depuis la conférence MUC6.


Origine de la ressource LI (Université François-Rabelais de Tours)
Nature des données Lexique relationnel multilingue de noms propres
Soutien institutionnel Action Technolangue du Ministère de l'Industrie.
Programme d'action intégré Egide Pavle-Savic du Ministère des Affaires étrangères.

Télécharger la base (License LGPL-LR) Consulter la base

Fiche technique

Version Prolexbase 1.0
Conception Denis Maurel, Mickaël Tran, Thierry Grass, Duško Vitas, Agata Savary, Béatrice Bouchou
Responsable scientifique Denis Maurel
Responsable informatique Etienne Petitjean
Contenu Nombre de prolexèmes : 54 239 (4 092 anthroponymes, 49 751 toponymes, 174 ergonymes et 222 pragmonymes)
Nombre de relations : 50 567 (2 249 accesibilités, 47 670 méronymies et 648 synonymies)
Nombre de lemmes : 75 368
Nombre de formes fléchies : 123 859
Format XML
Codage des caractères UTF-16

Développement et maintien

Implémentation Etienne Petitjean
Comité éditorial Béatrice Bouchou, Thierry Grass, Denis Maurel, Agata Savary, Duško Vitas