ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-E0018
    Package d’évaluation ARCADE II
    Le package d’évaluation ARCADE II a été produit dans le cadre du projet national français ARCADE II (« Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet ARCADE II a permis de réaliser une campagne d'évaluation dans le domaine de l'alignement multilingue, avec des objectifs plus ambitieux que le projet ARCADE I (dans le cadre des Actions de recherche Concertées de l'AUPELF (1996-1999)), incluant un alignement plus fin et portant sur plusieurs autres langues (élargissement à des langues distantes du français). Ainsi, ARCADE II, tout en étant dans la continuité d’ARCADE I, présente des aspects innovants et exploratoires, par exemple en intégrant des langues distantes du français, telles que l’arabe, le russe, le chinois, etc.

    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ARCADE II. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.


    La campagne se décompose en deux actions :
    1) Alignement phrastique : consiste à évaluer l’alignement du français avec des langues à écriture latine d’une part et avec des langues à écriture non latine d’autre part.
    2) Traduction d’entités nommées : consiste à repérer la traduction, à partir du corpus français annoté en entités nommées, dans le corpus parallèle arabe.

    Le package d’évaluation ARCADE II contient les données et outils suivants :
    1) Corpus JOC (Journal Officiel de la Communauté européenne) des langues à écriture latine (français, anglais, allemand, italien, espagnol) contient 1 million de mots par langue (5 millions de mots au total). Les textes sont alignés au niveau de la phrase et mis au format XML et UTF-8.
    2) Corpus MD (Le Monde Diplomatique) des langues à écriture non latine (arabe, chinois, russe, persan, grec, japonais) contient des textes alignés manuellement au niveau de la phrase, codés en XML et UTF-8. La taille des différentes parties varie en fonction de la paire de langues concernée. Un sous-ensemble de la partie français-arabe a été annoté manuellement en entités nommées. Les tailles en mots ont été comptées dans la partie française. Le comptage est différent dans certaines langues (comme l’arabe où de nombreux clitiques sont agglutinés, ce qui réduit le nombre de mots), voire impossible (comme en chinois, où il n’y a pas de séparation graphique des mots) :




    arabe-françaischinois-frgrec-frjaponais-frpersan-frrusse-fr
    Nombre d'articles150 x 259 x 250 x 252 x 253 x 250 x 2
    Nombre de mots en français316 000100 00090 000100 000108 00091 000

    Une description du projet est disponible à l'adresse suivante : http://www.technolangue.net/article.php3?id_article=201

    ISLRN : 875-865-064-331-9
    Production
    Projet : EVALDA
    Informations techniques
    Support de distribution : Downloadable
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
    written corpus 
    Fichiers complémentaires
  • Télécharger Echantillons - JOC French-English
  •  
    Prix Membres
    Academic - Evaluation 150.00 EUR
    Commercial - Evaluation 500.00 EUR
    Prix Non Membres
    Academic - Evaluation 300.00 EUR
    Commercial - Evaluation 1000.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0