ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-E0021
    Package d’évaluation ESTER
    Le package d’évaluation ESTER a été produit dans le cadre du projet national français ESTER (« Evaluation des systèmes de transcription enrichie d’émissions radiophoniques »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet ESTER a permis de réaliser une campagne d'évaluation des systèmes de transcription enrichie d’émissions radiophoniques pour le français. Le projet se situe en partie dans la continuité de la seule campagne de ce type qui ait été conduite, dans le cadre des Actions de recherche Concertées de l'AUPELF (1996-1999).

    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ESTER. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.

    La campagne se décompose en trois tâches:
    1) Transcription orthographique : il s'agit de produire une transcription orthographique de l'émission radio, dont la qualité est mesurée par le taux d'erreurs de mots. Deux tâches ont été distinguées, avec ou sans contrainte de temps de calcul.
    2) Segmentation : les tâches de segmentation se décomposent en segmentation en événements sonores, suivi de locuteurs et segmentation en locuteurs. Pour la segmentation en événements sonores, la tâche consiste à détecter les parties contenant de la musique (avec ou sans parole) d’une part et les parties comprenant de la parole (avec ou sans musique). La tâche de suivi de locuteur consiste à détecter les parties du document correspondant à un locuteur donné. La segmentation en locuteurs consiste à segmenter le document en locuteurs et regrouper les parties parlées par le même locuteur.
    3) Extraction d’information : il s'agit d’une tâche expérimentale sur la détection d'entités nommées. Le but était de mettre en place et tester un protocole d’évaluation plutôt que de mesurer les performances. Les systèmes doivent détecter huit classes d’entités (personne, lieu, date, organisation, entité géo-politique, montant, bâtiment et inconnu) à partir de la transcription automatique ou de la transcription manuelle.

    Le package d’évaluation ESTER contient les données et outils suivants :
    1) Environ 100 heures d’émissions transcrites orthographiquement et annotées en entités nommées.
    2) Les ressources textuelles distribuées dans le cadre de la campagne ESTER reposent essentiellement sur les archives du journal Le Monde 1987-2003 (ELRA-W0015) et du corpus des débats du Parlement européen (ELRA-W0023).
    3) Les outils d'évaluation permettant d'évaluer chacune des tâches définies ci-dessus.
    4) Des guides et manuels ont été produits et sont fournis dans le package distribué par ELDA :
    o Guide d’annotation en entités nommées
    o Spécifications et protocole d’évaluations

    Une description du projet est disponible à l'adresse suivante :
    http://www.technolangue.net/article.php3?id_article=60

    Un corpus supplémentaire de 1700 heures d’enregistrements d’émissions radiophoniques non transcrites peut être fourni sur disque dur en complément de ce package pour un coût de 100 Euros (plus frais de port).

    Pour un usage de recherche ou commercial, veuillez vous référer au corpus ESTER ELRA-S0241.

    ISLRN : 110-079-844-983-7
    Production
    Projet : EVALDA
    Informations techniques
    Support de distribution : Downloadable
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
    Fichiers complémentaires
  • Télécharger Echantillons - Transcription automatique
  • Télécharger Echantillons - Transcription manuelle
  •  
    Prix Membres
    * 1700 heures d’enregistrements d’émissions radiophoniques non transcrites disponibles sur disque dur pour un coût supplémentaire de 100 Euros.
    Academic - Evaluation 300.00 EUR
    Commercial - Evaluation 1000.00 EUR
    Prix Non Membres
    * 1700 heures d’enregistrements d’émissions radiophoniques non transcrites disponibles sur disque dur pour un coût supplémentaire de 100 Euros.
    Academic - Evaluation 2000.00 EUR
    Commercial - Evaluation 6500.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0