Εμπειρίες μετάφρασης ...: Journée de l'ATALA : Extraction d'informations lexicales, sémantiques et syntaxiques, à partir de corpus multilingues

Πέμπτη 3 Μαρτίου 2011

Journée de l'ATALA : Extraction d'informations lexicales, sémantiques et syntaxiques, à partir de corpus multilingues

Date : 7 mai 2011
Lieu : Maison de la Recherche (28 rue Serpente, 75006 Paris)

Appel à communications
---------------------------------

Les corpus multilingues (parallèles et comparables) constituent une source importante d'informations lexicales, sémantiques et syntaxiques, exploitables aussi bien pour l'élaboration automatique de ressources que pour l'amélioration de la performance d'applications de TAL.

L'alignement de corpus parallèles, contenant des textes en relation de traduction, permet l'extraction automatique de ressources lexicales (comme des lexiques, des thésaurus et des terminologies multilingues)
mais aussi l'étude de la sémantique des langues impliquées et la génération de paraphrases. Ces tâches peuvent être facilitées par le prétraitement des corpus, leur annotation morphosyntaxique et leur
lemmatisation. En outre, l'analyse syntaxique des corpus permet d'acquérir des informations syntaxiques et d'établir des correspondances de traduction au niveau sous-phrastique.

Néanmoins, la disponibilité des corpus parallèles restant limitée, l'exploitation de corpus comparables pour l'acquisition d'informations lexicales constitue aujourd'hui un enjeu important. Ces corpus rassemblent des textes de langues différentes appartenant au même domaine ou genre. L'absence de relations de traduction entre ces textes rend nécessaire le développement de techniques pour le repérage d'informations multilingues utiles autres que celles utilisées dans le cas des corpus parallèles.

Pour cette journée, nous sollicitons des contributions relatives aux méthodes utilisées pour extraire des informations sémantiques et syntaxiques à partir de tous types de corpus multilingues, aussi bien qu'aux ressources automatiquement élaborées à l'issue du traitement. Un autre axe d'intérêt concerne l'intégration de ces ressources dans des applications multilingues de TAL (comme la Traduction Automatique
et la Recherche d'Information Multilingue) et les améliorations que leur exploitation peut apporter.

L'objectif de la journée est de favoriser les rencontres de chercheurs qui travaillent sur cette thématique afin de faciliter l'échange d'idées et de promouvoir la collaboration. La journée est soutenue par le projet ANR EDyLex.

Public visé
---------------

Chercheurs et professionnels des industries de la langue travaillant sur l'exploitation de corpus multilingues pour l'élaboration de ressources lexicales et leur intégration dans des applications de TAL.

Conférencier invité
--------------------------

Pierre Zweigenbaum (LIMSI, CNRS)

Soumission
----------------

Les auteurs sont invités à soumettre un résumé de 2 pages maximum, en
français ou en anglais.
Les soumissions devront être envoyées au format pdf à : JourneeCorpusMultilingues [ à ] gmail.com

Dates importantes
-------------------------

Date limite de soumission : 5 avril 2011
Notification aux auteurs : 18 avril 2011
Version finale : 25 avril 2011
Date : samedi 7 mai 2011

Comité de lecture
------------------------

Marianna Apidianaki (Alpage, INRIA)
Marine Carpuat (NRC, Canada)
Eric de la Clérgerie (Alpage, INRIA)
Tim Van de Cruys (Cambridge University, UK)
Béatrice Daille (Université de Nantes)
Eric Gaussier (LIG, Université de Grenoble)
Philippe Langlais (RALI, Université de Montréal)
Yves Lepage (Université de Caen)
Aurélien Max (LIMSI, CNRS)
Emmanuel Morin (Université de Nantes)
Emmanuel Prochasson (Hong Kong University)
Benoît Sagot (Alpage, INRIA)
Lucia Specia (University of Wolverhampton, UK)
Pierre Zweigenbaum (LIMSI, CNRS)

Comité d'organisation
------------------------------

Marianna Apidianaki (Alpage, INRIA, mail : marianna.apidianaki@inria.fr)
Benoît Sagot (Alpage, INRIA, mail : benoit.sagot@inria.fr)

https://sites.google.com/site/journeecorpusmultilingues/