FRANCORPUS

« Bases de données littéraires francophones »

Responsable scientifique : MONTÉMONT Véronique
Mots clés : français, corpus, trésor, littérature,
picto small clock Durée prévue : 36 mois
picto play Date de démarrage : 2011-01-01

Disciplines des chercheurs lorrains

Langue et littérature françaises

Chercheurs et personnels d'appui lorrains engagés

MONTÉMONT Véronique (MC HDR) - ATILF (UMR 7118), Université de Lorraine


Autres partenaires engagés dans le projet

Prochainement / coming next.

Présentation

L'offre de bases de données littéraires francophones actuelle est large, mais insatisfaisante, aussi bien sur le plan quantitatif que qualitatif.
Une première famille regroupe les bases de données monstres : Google Livres, Gallica, bibliothèque électronique de la BNF, Europeana... Une seconde famille concerne des bases de données plus restreintes : Gutenberg Project, Bibliothèque de Lisieux, Frantext...
Ces deux groupes présentent à la fois avantages et inconvénients importants : selon le type, qualité de numérisation basse ou taux de fiabilité faible, outils de recherche sommaires, contraintes juridiques ...etc.

Francorpus se situerait dans une perspective inverse et complémentaire : proposer un corpus petit (500 textes), mais échantillonné, représentatif tant en synchronie qu'en diachronie, composé de textes numérisés selon un standard qualitatif élevé (moins d'une erreur / 13 000 caractères). Une partie conséquente de ce corpus serait constituée de textes libres de droits ; la partie sous droits, essentielle pour fournir des exemples contemporains, serait accessible à travers un outil de recherche, qui en limiterait la consultation à des contextes.

Le projet se propose donc :

  • de constituer, améliorer, et préparer des corpus (normalisation, balisage) ;
  • de développer des outils de recherche spécifique permettant leur exploitation dans le cadre d'une recherche en littérature ;
  • d'effectuer des recherches transversales et pluridisciplinaires sur les corpus ainsi préparés, en utilisant toutes les ressources de la recherche automatisée et de la statistique textuelle.