Format PDF

Axe 2 : Langues, textes, documents et CNRTL

Accès direct aux projets de recherche en cours

picto journal [ Actualités de l'axe ]

Animateurs et représentants de l'axe au Conseil d'orientation et au Comité de pilotage de la MSH

Jean-Marie Pierrel (titulaire)
Françoise Lartillot (suppléante)

Ingénieure de l'axe 2

Frédérique Bey

 

Objectifs scientifiques

Dans le cadre de recherches menées en sciences humaines et sociales, l'utilisation d'archives documentaires et le recours à des corpus d'étude sont essentiels. Dans ce contexte, cet axe Langues, textes et documents de la MSH Lorraine et le Centre National de Ressources Textuelles et Lexicales peut se résumer sous la forme de trois objectifs complémentaires, autour de cette plate-forme commune de codage, structuration, gestion, valorisation et diffusion de ressources textuelles :

  • une réflexion épistémologique, méthodologique et juridique autour de la notion d’exploitation intelligente de corpus et de documents pour la recherche en SHS ;
  • la mise à disposition d’une chaîne de numérisation permettant de traiter des documents anciens et modernes, supports de nos recherches ; la mutualisation de moyens techniques et logiciels, en particulier sur les aspects d’enrichissement de documents numérisés, d’OCRisation de contenus textuels, d’annotation et de balisage XML ; la mise en commun de méthodologies, d’expériences et d’acquis sur le balisage XML (eXtended Markup Language), la définition de schémas ou de DTD (Document Type Definition), la gestion de ressources textuelles informatisées, l’accès aux contenus textuels et l’exploitation de balisages ;
  • le décloisonnement de la recherche en SHS en Lorraine à travers la mise en place d’actions de recherche communes et interéquipes autour des notions de valorisation et d’exploitation scientifiques de données textuelles pour la recherche, ainsi que d'une analyse afférente des modélisations des cultures et des discours sur les cultures.

 

Liens avec le programme "Investissements d'avenir" du Grand Emprunt

  • Le projet d’Equipex ORTOLANG (Outils et Ressources pour un traitement optimisé de la LANGue), est un prolongement direct du projet CNRTL. Cet Equipex en réseau regroupe autour de Nancy, Aix-en-Provence, Paris et Orléans, une infrastructure en réseau de gestion, mutualisation, diffusion et valorisation de ressources et d’outils de traitement sur le français et les langues de France qui permet tout à la fois de répertorier et diffuser les ressources existantes et de tester différents outils de traitement de la langue.
  • Concernant le dossier IDEX ISTEX (Initiative d’excellence en IST, en lien avec la Très Grande Infrastructure BSN Bibliothèque Scientifique Numérique), il entretient des liaisons étroites avec les efforts de recherche faits dans notre projet « Langues, Textes et Documents » et au CNRTL. L’Université de Lorraine, partenaire du projet, agissant pour son propre compte et pour le compte de la CPU (Conférences des présidents des Universités) a pour objectif de développer, sur la plateforme ISTEX, des outils avancés s’appuyant sur les derniers résultats de la recherche et exploitant le plein texte des acquisitions faites dans le cadre du projet ISTEX.

 

Liens avec la Région Lorraine

  • Le projet RELIEF, mené par l’ATILF et MVS, et soutenu conjointement par l’AME (Agence de Mobilisation Economique) de Lorraine et par le FEDER Lorrain est fortement lié aux développements de notre projet « Langues, Textes et Documents » (axe 2 de la MSH) et au CNRTL. Il s'agit ici d’œuvrer pour faire de la Lorraine la région de référence en traitement sémantique des informations textuelles. L'objectif est de faire sauter un verrou technologique important, en proposant de construire la ressource indispensable en ce domaine : un Réseau Lexical du Français, intégrable dans des applications automatisées et s'appuyant sur les connaissances disponibles à l'ATILF à travers le TLFi et le portail lexical du CNRTL.
  • On citera également l'exemple de l’entreprise XILOPIX, qui coopère avec l’ATILF et qui s'est délocalisée de Paris vers la Lorraine, créant ainsi 17 emplois supplémentaires à Epinal.

 

Partenariats et soutiens européens ou internationaux

Au niveau national :

  • Plateforme technologique nationale reconnue par le réseau national des MSH
  • Implication dans la Très Grande Infrastructure de Recherche (TGIR) en SHS ADONIS/CORPUS (fusion des deux anciennes TGIR ADONIS et CORPUS) pour ce qui concerne les corpus textuels, lexiques et dictionnaires : http://www.tge-adonis.fr. Plusieurs équipes du projet participent également au consortium « Corpus écrits ».


Au niveau européen ou international :

  • Participation au projet d’infrastructure européenne pour les SHS CLARIN (Common Language Resources and Technology Infrastructure) ;
  • Participation, au projet européen d’infrastructure de recherche DARIAH (Digital Research Infrastructure for the Arts and Humanities) validée en 2011 par le Ministère de la Recherche et par le CNRS.

 

Mots clés : Corpus, ressources informatisées, Langues, Textes, Plateforme commune