ARCADE/ROMANSEVAL corpus
View resource name in all available languages
Corpus ARCADE/ROMANSEVAL
ID:
ELRA-W0018
The ARCADE/ROMANSEVAL corpus was used as a reference corpus in two international competitions:
· ARCADE, an exercise on multilingual text alignment financed by AUPELF-UREF
· ROMANSEVAL, part of the SENSEVAL exercise sponsored by ACL-SIGLEX and EURALEX, on word sense disambiguation.
The corpus contains raw data from the JOC corpus developed in the MULTEXT project financed by the European Commission (LRE 62-050), composed of 1 million words in English and four romance languages: French, Italian, Spanish and Portuguese (Written Question and Answers from the Official Journal of the European Commission).
The annotation concerns all the contexts of 60 different test words (20 nouns, 20 adjectives, 20 verbs), i.e. ca. 3700 contexts all together, and comprises:
· semantic tagging of all the occurrences of the test words in the JOC corpus for French and Italian;
· word-level alignment of all the occurrences of the test words between French and English.
View resource description in
French
Le corpus ARCADE/ROMANSEVAL a été utilisé comme corpus de référence au cours de deux projets internationaux :
* ARCADE, un exercice d'alignement de texte multilingue financé par l'AUPELF-UREF
* ROMANSEVAL, partie du projet SENSEVAL financé par ACL-SIGLEX et EURALEX, concernant la désambiguïsation sémantique des mots.
Ce corpus contient des données brutes du corpus JOC développé dans le cadre du projet MULTEXT financé par la Commission européenne (LRE 62-050), composé de 1 million de mots en anglais, espagnol, français, italien, et portugais (Questions écrites et réponses du Journal Officiel de la Communauté Européenne).
L'annotation a été réalisée sur tous les contextes de 60 mots-tests différents (20 noms, 20 adjectifs, 20 verbes), c'est-à-dire environ 3 700 contextes.
La base distribuée comprend :
* un étiquetage sémantique de toutes les occurrences des mots-tests du corpus JOC pour le français et l'italien,
* un alignement français-anglais au niveau du mot pour toutes les occurrences des mots-tests.
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
0.00 €
|
2000.00 €
|
Licence: Commercial Use - ELRA VAR |
2000.00 €
|
2000.00 €
|
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
0.00 €
|
5000.00 €
|
Licence: Commercial Use - ELRA VAR |
5000.00 €
|
5000.00 €
|