Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Informations
Procédure & Conditions d'achat
Prix et licences d'utilisation
Comment promouvoir vos ressources ?
Contactez-nous
Référence Catalogue : E0019
Package d’évaluation CESART
Le package d’évaluation CESART a été produit dans le cadre du projet national français CESART (« Campagne d'Evaluation de Systèmes d'Acquisition de Ressources Terminologiques »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet CESART a permis de réaliser une campagne d'évaluation de systèmes d'acquisition de ressources terminologiques. Le projet s'inscrit dans la suite de la campagne d’évaluation d'outils d'acquisition de ressources terminologiques à partir de corpus écrits (ARC A3), entrepris dans le cadre des Actions de recherche Concertées de l'AUPELF (1996-1999).
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESART. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.
La campagne se décompose en deux actions :
1) Extraction des termes pour la construction d'un référentiel terminologique dont l'application est l'enrichissement du référentiel et l'indexation libre des documents.
2) Extraction des relations sémantiques (synonymie) à partir d'une liste de termes amorces.
Le package d’évaluation CESART contient les données suivantes :
Trois corpus en français des domaines spécialisés ont été construits : un corpus médical, un corpus du domaine de l’éducation, et un corpus politique. Les deux premiers ont été utilisés comme corpus de test, tandis que le troisième (corpus politique) a été utilisé comme corpus de masquage. Les corpus sont encodés en UTF-8 et en XML. Ils sont disponibles en deux versions, l’une pour DOS et l’autre pour UNIX.
1) Le corpus médical est composé des pages web provenant du site Santé Canada (
http://www.hc-sc.gc.ca/index_f.html
).
2) Le corpus du domaine de l’éducation contient des articles provenant de la revue de pédagogie et de recherche en éducation SPIRAL.
3) Le corpus politique est composé des textes tirés du Journal Officiel de l’Union Européenne.
Le tableau ci-dessous présente quelques statistiques concernant les corpus pour l’évaluation :
Corpus (spécialité)
Médecine (corpus de test)
Education (corpus de test)
Politique (corpus de masquage)
Nombre de documents
7 514
149
1 477
Nombre de segments
255 161
12 109
9 024
Nombre de mots
9 000 000
535 000
240 000
4) Deux listes référentielles ont été construites à partir des deux terminologies du domaine spécialisé. La liste des termes médicaux basée sur la terminologie provenant de l’équipe CISMeF (www.chu-rouen.fr/terminologiecismef) est disponible auprès de l’IST/Inserm (
http://ist.inserm.fr/basismesh/mesh.html
). Cette liste contient 22 861 entrées. Pour le domaine de l’éducation, la liste référentielle est basée sur le thésaurus Motbis (
http://www.thesaurus.motbis.cndp.fr/site/
) et composée de 36 081 entrées.
Une description du projet est disponible à l'adresse suivante :
http://www.technolangue.net/article.php3?id_article=200
Production
Projet :
EVALDA
Contenus
Cliquer sur la flèche afin d'afficher les informations des contenus.
written corpus
Nombre de langues
: Monolingual
Langue(s) :
français
Prix Membres
Academic - Evaluation 150.00 EUR
Commercial - Evaluation 500.00 EUR
Prix Non Membres
Academic - Evaluation 300.00 EUR
Commercial - Evaluation 1000.00 EUR
samedi 31 juillet, 2010
5266482 requêtes depuis le lundi 27 septembre, 2004
Copyright © 2008
ELRA
ELRACatalogue 0.8.0