Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Informations
Procédure & Conditions d'achat
Prix et licences d'utilisation
Comment promouvoir vos ressources ?
Contactez-nous
Référence Catalogue : E0018
Package d’évaluation ARCADE II
Le package d’évaluation ARCADE II a été produit dans le cadre du projet national français ARCADE II (« Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet ARCADE II a permis de réaliser une campagne d'évaluation dans le domaine de l'alignement multilingue, avec des objectifs plus ambitieux que le projet ARCADE I (dans le cadre des Actions de recherche Concertées de l'AUPELF (1996-1999)), incluant un alignement plus fin et portant sur plusieurs autres langues (élargissement à des langues distantes du français). Ainsi, ARCADE II, tout en étant dans la continuité d’ARCADE I, présente des aspects innovants et exploratoires, par exemple en intégrant des langues distantes du français, telles que l’arabe, le russe, le chinois, etc.
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ARCADE II. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.
La campagne se décompose en deux actions :
1) Alignement phrastique : consiste à évaluer l’alignement du français avec des langues à écriture latine d’une part et avec des langues à écriture non latine d’autre part.
2) Traduction d’entités nommées : consiste à repérer la traduction, à partir du corpus français annoté en entités nommées, dans le corpus parallèle arabe.
Le package d’évaluation ARCADE II contient les données et outils suivants :
1) Corpus JOC (Journal Officiel de la Communauté européenne) des langues à écriture latine (français, anglais, allemand, italien, espagnol) contient 1 million de mots par langue (5 millions de mots au total). Les textes sont alignés au niveau de la phrase et mis au format XML et UTF-8.
2) Corpus MD (Le Monde Diplomatique) des langues à écriture non latine (arabe, chinois, russe, persan, grec, japonais) contient des textes alignés manuellement au niveau de la phrase, codés en XML et UTF-8. La taille des différentes parties varie en fonction de la paire de langues concernée. Un sous-ensemble de la partie français-arabe a été annoté manuellement en entités nommées. Les tailles en mots ont été comptées dans la partie française. Le comptage est différent dans certaines langues (comme l’arabe où de nombreux clitiques sont agglutinés, ce qui réduit le nombre de mots), voire impossible (comme en chinois, où il n’y a pas de séparation graphique des mots) :
arabe-français
chinois-fr
grec-fr
japonais-fr
persan-fr
russe-fr
Nombre d'articles
150 x 2
59 x 2
50 x 2
52 x 2
53 x 2
50 x 2
Nombre de mots en français
316 000
100 000
90 000
100 000
108 000
91 000
Une description du projet est disponible à l'adresse suivante :
http://www.technolangue.net/article.php3?id_article=201
Production
Projet :
EVALDA
Contenus
Cliquer sur la flèche afin d'afficher les informations des contenus.
written corpus
Nombre de langues
: Multilingual
Langue(s) :
arabe ; chinois ; anglais ; français ; allemand ; grec moderne (après 1453) ; italien ; japonais ; persan ; russe ; espagnol, castillan
Alignement :
Multilingual
Fichiers complémentaires
Echantillons
- JOC French-English
Prix Membres
Academic - Evaluation 150.00 EUR
Commercial - Evaluation 500.00 EUR
Prix Non Membres
Academic - Evaluation 300.00 EUR
Commercial - Evaluation 1000.00 EUR
samedi 31 juillet, 2010
5266479 requêtes depuis le lundi 27 septembre, 2004
Copyright © 2008
ELRA
ELRACatalogue 0.8.0