ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-E0019
    Package d’évaluation CESART
    Le package d’évaluation CESART a été produit dans le cadre du projet national français CESART (« Campagne d'Evaluation de Systèmes d'Acquisition de Ressources Terminologiques »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet CESART a permis de réaliser une campagne d'évaluation de systèmes d'acquisition de ressources terminologiques. Le projet s'inscrit dans la suite de la campagne d’évaluation d'outils d'acquisition de ressources terminologiques à partir de corpus écrits (ARC A3), entrepris dans le cadre des Actions de recherche Concertées de l'AUPELF (1996-1999).

    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESART. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.

    La campagne se décompose en deux actions :
    1) Extraction des termes pour la construction d'un référentiel terminologique dont l'application est l'enrichissement du référentiel et l'indexation libre des documents.
    2) Extraction des relations sémantiques (synonymie) à partir d'une liste de termes amorces.

    Le package d’évaluation CESART contient les données suivantes :
    Trois corpus en français des domaines spécialisés ont été construits : un corpus médical, un corpus du domaine de l’éducation, et un corpus politique. Les deux premiers ont été utilisés comme corpus de test, tandis que le troisième (corpus politique) a été utilisé comme corpus de masquage. Les corpus sont encodés en UTF-8 et en XML. Ils sont disponibles en deux versions, l’une pour DOS et l’autre pour UNIX.
    1) Le corpus médical est composé des pages web provenant du site Santé Canada (http://www.hc-sc.gc.ca/index_f.html).
    2) Le corpus du domaine de l’éducation contient des articles provenant de la revue de pédagogie et de recherche en éducation SPIRAL.
    3) Le corpus politique est composé des textes tirés du Journal Officiel de l’Union Européenne.

    Le tableau ci-dessous présente quelques statistiques concernant les corpus pour l’évaluation :





    Corpus (spécialité)Médecine (corpus de test)Education (corpus de test)Politique (corpus de masquage)
    Nombre de documents7 5141491 477
    Nombre de segments255 16112 1099 024
    Nombre de mots9 000 000535 000240 000


    4) Deux listes référentielles ont été construites à partir des deux terminologies du domaine spécialisé. La liste des termes médicaux basée sur la terminologie provenant de l’équipe CISMeF (www.chu-rouen.fr/terminologiecismef) est disponible auprès de l’IST/Inserm (http://mesh.inserm.fr/mesh). Cette liste contient 22 861 entrées. Pour le domaine de l’éducation, la liste référentielle est basée sur le thésaurus Motbis (http://www.thesaurus.motbis.cndp.fr/site/) et composée de 36 081 entrées.

    Une description du projet est disponible à l'adresse suivante :
    http://www.technolangue.net/article.php3?id_article=200

    ISLRN : 154-799-255-123-0
    Production
    Projet : EVALDA
    Informations techniques
    Support de distribution : Downloadable
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
    written corpus 
     
    Prix Membres
    Academic - Evaluation 150.00 EUR
    Commercial - Evaluation 500.00 EUR
    Prix Non Membres
    Academic - Evaluation 300.00 EUR
    Commercial - Evaluation 1000.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0