ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-E0020
    Package d’évaluation CESTA
    Le package d’évaluation CESTA a été produit dans le cadre du projet national français CESTA (« Campagne d'Evaluation de Systèmes de Traduction Automatique »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet CESTA a permis de réaliser une campagne d'évaluation des systèmes de traduction automatique à partir de texte anglais et arabe traduits en français.

    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESTA. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.

    La campagne se décompose en deux actions :
    1) Evaluation sur un vocabulaire non restreint : un protocole d’évaluation a été introduit s’appliquant aux deux directions de traduction : anglais vers français et arabe vers français.
    2) Evaluation sur un domaine spécialisé (évaluation après enrichissement terminologique) : consiste à observer l’impact de l’adaptation des systèmes au domaine d’application.

    Le package d’évaluation CESTA contient les données et outils suivants :
    1) Données de la campagne à blanc :
    - Corpus parallèle anglais-français : 21 590 mots anglais et 23 554 mots français extraits du Journal Officiel des Communautés Européennes, 1993, section des Questions écrites au Parlement européen, extraites du corpus MLCC (réf. catalogue ELRA-W0023).
    - Corpus parallèle arabe-français : 15 603 mots arabes et 18 257 mots français extraits du Monde Diplomatique 2002 (réf. catalogue ELRA-W0036).

    2) Données de la première campagne :
    - Corpus parallèle anglais-français : corpus de test de 20 658 mots anglais et 22 774 mots français extraits du Journal Officiel des Communautés Européennes, 1993, section des Questions écrites au Parlement européen, extraites du corpus MLCC (réf. catalogue ELRA-W0023). Quatre traductions en français sont disponibles.
    - Corpus parallèle arabe-français : corpus de test de 23 763 mots arabes et 28 664 mots français extraits du Monde Diplomatique 2002 et 2003 (réf. catalogue ELRA-W0036). Quatre traductions en français sont disponibles.

    3) Données de la deuxième campagne :
    - Corpus parallèle anglais-français : corpus d’adaptation de 19 383 mots anglais et 22 741 mots français, extraits du site Santé Canada. Une traduction en français est disponible.
    - Corpus parallèle arabe-français : corpus d’adapation de 19 560 mots arabes et 22 533 mots français extraits des sites de l’UNICEF, de l’OMS et de FHI. Une traduction en français est disponible.
    - Corpus parallèle anglais-français : corpus de test de 18 880 mots anglais et 23 411 mots français, extraits du site Santé Canada. Quatre traductions en français sont disponibles.
    - Corpus parallèle arabe-français : corpus de test de 17 305 mots arabes et 20 885 mots français extraits des sites de l’UNICEF, de l’OMS et de FHI. Quatre traductions en français sont disponibles.

    4) Les soumissions anonymisées des systèmes et les jugements humains d’adéquation et de fluidité.
    5) Corpus de français de 13 000 mots étiqueté en fluidité et en adéquation.
    6) Infrastructure d’évaluation pour des jugements humains et pour l’évaluation automatique.
    7) Les documents et publications du projet.

    Une description du projet est disponible à l'adresse suivante :
    http://www.technolangue.net/article.php3?id_article=199

    ISLRN : 809-316-046-724-8
    Production
    Projet : EVALDA
    Informations techniques
    Support de distribution : Downloadable
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
    written corpus 
     
    Prix Membres
    Academic - Evaluation 150.00 EUR
    Commercial - Evaluation 500.00 EUR
    Prix Non Membres
    Academic - Evaluation 300.00 EUR
    Commercial - Evaluation 1000.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0