SATURN

« Sémantique du langage naturel et Apprentissage par Réseaux Neuromimétiques »

Responsable scientifique : JACQUEY Evelyne
Mots clés : contenu sémantique, structure argumentale, langage naturel, réseau neuromimétique, apprentissage
picto small clock Durée prévue : 12 MOIS
picto play Date de démarrage : 2017-01-02

Chercheurs et personnels d'appui lorrains engagés

BONIFACE Yann (MC) - LORIA (UMR 7503), Université de Lorraine


Disciplines des chercheurs lorrains

Informatique

Présentation

SAtuRN est un projet pluridisciplinaire au croisement de la Linguistique et de l'intelligence Artificielle. Il s'intéresse à l'apprentissage neuromimétique appliqué à la problématique de la sémantique lexicale du langage telle qu'elle est apprise en interaction. Les approches développées par la linguistique au sens strict fournissent des représentations fondées sur les grammaires et les dictionnaires en fonction des hypothèses formulées par les linguistes sur la structuration du langage. Les linguistes font appel à leur propre compétence linguistique dans ces approches. Cependant, nombre de notions linguistiques, pour explicatives qu'elles soient en termes de description du langage, sont aussi des artefacts théoriques. Quels que soient les modélisations existantes, depuis les frames de Fillmore [Goddard 2011], jusqu'aux traits sémantiques de la sémantique interprétative [Rastier 2009] en passant par la théorie du prototype de Kleiber [Kleiber 1990] ou encore les facettes de Cruse [Cruse 2004], les frames, les traits sémantiques, les primitives sémantiques, les facettes sémantiques et même les prototypes, ne permettent pas d'aborder la question de l'acquisition de la sémantique lexicale d'une langue.
De manière complémentaire à ce type d'approches, SAtuRN se situe dans une optique « développementale » où le sens donné à chaque mot (ou séquence de mots) est calculé à partir des actions et des gestes effectués par un agent artificiel. L'objectif est de développer une architecture d'apprentissage du lexique permettant de valider un modèle d'apprentissage du langage mis au point dans sa thèse par Xavier Hinault [Hinaut2013] et un modèle de carte auto-organisatrice dynamique (DSOM).

L'idée développée par Xavier Hinault est de s'appuyer sur une architecture d'apprentissage neuro-mimétique afin d'apprendre le rôle des termes d'une phrase en fonction du contexte et de la position de ces mots dans la phrase. Cette architecture repose sur un modèle connexionniste récurrent appelé «reservoir computing» qui permet de tenir compte de l'ordre dans lequel les termes d'une phrase apparaissent pour y associer un rôle. L'apprentissage de la sémantique est dit « développemental » car la sémantique est apprise en situation : c'est parce que l'agent artificiel est en train d'avancer qu'il va, par exemple, associer au verbe « bouger» un sens lié à son mouvement actuel. Ce modèle, et son apprentissage, ont pour le moment été validés sur des corpus jouets, en anglais, la question est de l'évaluer, et éventuellement le valider sur du français, dit naturel. Les éléments de langage permettant son apprentissage, puis son utilisation comme modèle de langage, seront proposés par des internautes, loin des considérations techniques du modèle étudié.

L'apprentissage de ces associations se fera en utilisant des cartes auto-organisatrices dynamiques (DSOM) qui sont bien adaptées à ce type d'apprentissage en situation. D'une part, le DSOM peut apprendre à partir de cas rares et, d'autre part, il permet de prendre en compte de nouveaux exemples au fur et à mesure qu'ils apparaissent [Rougier & Boniface 2011]. À la manière de T.Kohonen avec la langue chinoise [Kohonen 2010], en plus d'utiliser DSOM, nous souhaitons évaluer notre modèle de cartes organisatrices dynamiques sur des données réelles, fournies hors problématiques dudit modèle. Ces données seront dynamiques sous différents angles, étant constituées par la multitude des descriptions d'un même phénomène, avec des expressions plus ou moins complexes, pouvant comporter de la polysémie, et l'enrichissement continu du corpus. La question de l'émergence du sens en fonction du contexte devra inévitablement se poser.


La constitution de cette plate-forme nous permettra d'approfondir les axes théoriques suivants:

•    Validité et limites du réservoir pour le traitement du langage naturel en français
•    Validité et limites de DSOM pour cartographier le langage, cartographier notre espace fonctionnel et lier ces deux espaces
•    Émergence de concepts à partir d'un besoin de description fonctionnelles (langage et cartes associatives)
•    Émergence d'une séquence contextuelle d'une carte auto-organisatrice
•    Extension de la plate-forme à des séquences de séquences (synchronisation, rappels à des séquences précédentes, etc.)

Dans un second temps, ce projet devrait s'élargir à une collaboration avec Xavier Hinaut (CR IN RIA/Bordeaux).