Recherche

Thèmes

Pendant ma thèse (période 1994-2000), les travaux concernaient la modélisation déclarative en synthèse d’images. Je me suis plus particulièrement attaché :

  1. à définir un formalisme de représentation des propriétés d’une description, souple et proche du langage naturel, utilisant les sous-ensembles flous ;
  2. à proposer une plate-forme pour la conception de modeleurs déclaratifs, basée sur ce formalisme, permettant de construire un modeleur déclaratif sans avoir à tout reprogrammer.

Depuis, mes thèmes de recherche se situent dans le cadre très général du Web sémantique et des problématiques de localisation et de traitement de l’information dans de gros corpus ouverts (comme le Web).

En particulier, les principaux thèmes développés portent sur l’utilisation des ontologies, des ressources terminologiques, des techniques de classification et des techniques de traitement du langage naturel dans la recherche d’informations (documents ou informations précises), en particulier à l’aide d’outils d’annotation (automatique) et d’indexation de documents.

Nous cherchons aussi à mettre en place un système d’annotations libres de documents et à exploiter la sémantique de ces annotations pour adapter les documents à l’utilisateur et exploiter au mieux les annotations pour la compréhension et la classification de ces documents (applications en recherche d’information, en e-learning…).

Points forts

Nous nous sommes appliqués à chercher à proposer un processus d’indexation structuré de sites Web en utilisant des traitements issus du TALN et des ontologies dont les « labels » des concepts sont désambiguïsés (appelée ontologie orientée terminologie) à l’aide d’une ontologie linguistique (thésaurus). Dans ce cadre, nous avons développé un outil d’indexation structuré qui fait partie d’un logiciel vendu à la société e-Manation. Plus généralement, nous cherchions à automatiser la localisation de l’information sur le Web et à exploiter ces traitements pour améliorer la qualité des réponses aux requêtes. Il s’avère que ces techniques sont aussi intéressantes dans le cadre du recrutement par Internet, pour gérer les CV par exemple.

Nous avons aussi développé un système réparti pour l’annotation de documents HTML afin d’étudier la sémantique des annotations libres (projet Dinosys). Les annotations sont une source intéressante pour comprendre le profil de l’auteur mais aussi pour améliorer l’exploitation des documents. En effet, l’analyse des passages annotés ainsi que du texte des notes va fournir des renseignements précieux sur le texte, les termes importants et leur sémantique. Notre travail consiste donc, après avoir mis en place un outil d’annotation adapté, a étudier l’apport des annotations dans la constitution de profil utilisateur et dans l’exploitation des documents (dans le cadre des systèmes de Question-Réponse, de e-learning ou de recherche d’information basés sur la sémantique).

Actuellement, en plus de continuer sur le projet Dinosys, nous nous intéressons d’une part à la construction, l’adaptation et l’enrichissement de thésaurus multilingues en exploitant la propriété de multilinguisme de différentes sources de données textuelles (application à EuroWordnet). D’autre part, nous nous intéressons à la recherche d’informations précises, par l’extraction de passages candidats, en exploitant des informations sémantiques issues de différentes sources de données (application au système question/réponse Prodicos qui est évalué dans les campagnes CLEF).