Format PDF

ASTTIC

« Annotation Sémantique et Terminologique de Textes pour leur Indexation et leur Catégorisation »

Responsable scientifique : KISTER Laurence
Mots clés : sémantique, terminologie, corpus, annotation, ressource informatisée
picto small clock Durée prévue : 36 mois
picto play Date de démarrage : 2011-01-01

Disciplines des chercheurs lorrains

Informatique
Langues, langage, discours
Sciences du langage : linguistique et phonétique générales
Sciences et technologies de l'information (informatique, automatique, signal et communication)

Chercheurs lorrains engagés

BARREAUX Sabine (IR) - INIST (UPS 76), CNRS
FRANCOIS Claire (IR) - INIST (UPS 76), CNRS
GAIFFE Bertrand (CR) - ATILF (UMR 7118), CNRS
HUMBERT Jean Marc (IE) - ATILF (UMR 7118), CNRS
JACQUEY Evelyne (CR) - ATILF (UMR 7118), CNRS
KHAYARI Majid (IE) - INIST (UPS 76), CNRS
KISTER Laurence (MC) - ATILF (UMR 7118), Université de Lorraine
LUX-POGODALLA Véronika (IR) - ATILF (UMR 7118), CNRS
OLLINGER Sandrine (IE) - ATILF (UMR 7118), CNRS
PERIGNON Jessika (Tech) - ATILF (UMR 7118), CNRS
PETITJEAN Etienne (IR) - ATILF (UMR 7118), CNRS
ROMARY Laurent (DR) - LORIA (UMR 7503), INRIA
SCHNEIDER Stéphane (IE) - INIST (UPS 76), CNRS
TOUSSAINT Yannick (CR) - LORIA (UMR 7503), INRIA


Autres partenaires engagés dans le projet

Université Stendhal-Grenoble 3, Lidilem (EA 609) : Agnès Tutin
IUFM, Université Joseph Fourier Grenoble, Lidilem : Marie-Paule Jacques
Université de Nantes/Ecole des mines, Lina (UMR 6241) : Béatrice Daille

Présentation

Le projet ASTTIC a pour but la constitution de corpus textuels, annotés sémantiquement et terminologiquement diffusables et accessibles pour la communauté scientifique. Il se fonde sur les résultats et les observations issus de travaux antérieurs associant sémantique lexicale, sémantique textuelle et terminologie.

ASTTIC a plusieurs objectifs :

  • la mise au point, dans le domaine des sciences du langage, d'une méthodologie d'annotation de documents contribuant à l'amélioration de leur indexation (indexation assistée au sens documentaire). L'annotation suppose le repérage dans les textes des candidats termes caractérisques du domaine et leur désambiguïsation sémantique et terminologique ;
  • l'enrichissement d'un thesaurus du domaine grâce aux candidats termes mis en évidence lors des étapes de repérage et de désambiguïsation ;
  • la catégorisation des textes soit en textes scientifiques (écrit pour des spécialistes par des spécialistes) soit en textes de vulgarisation scientifique (écrit pour le grand public par des spécialistes ou des journalistes scientifiques) en fonction de leur degré de généricité ou de spécificité.

Le repérage et l'extraction du vocabulaire des sciences du langage présentent une difficulté spécifique liée à une de ses particularités : la proximité entre le vocabulaire du domaine de spécialité et la langue courante (arbre est un terme en syntaxe et un mot de la langue courante - composition est un terme dans les deux sous-domaines que sont la syntaxe et la morphologie ainsi qu'un terme de musicologie et un mot de la langue courante).