ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : S0272
    Base de données MEDIA pour le français
    La base de données MEDIA pour le français a été produite dans le cadre du projet national français MEDIA (« Méthodologie d'Evaluation automatique de la compréhension hors et en contexte du DIAlogue »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT).

    Elle comprend 1 258 dialogues transcrits pour 250 locuteurs adultes. La méthode choisie pour la construction du corpus est celle d’un système « magicien d’Oz ». Elle consiste à simuler un dialogue homme-machine en langage naturel. Le scénario est construit pour le domaine du tourisme et de la réservation d’hôtel.

    La base de données a été formatée d’après les conventions SpeechDat et contient les éléments suivants:
    • 1 258 sessions d’enregistrements pour un total de 70 heures de parole. Les signaux sont stockés au format de fichier wave stereo. Les deux canaux de parole sont enregistrés en 8kHz 16 bit, avec l’octet le moins significatif en premier (“lohi” ou format Intel) en entiers (signés).
    • La transcription manuelle de chaque session au format XML. Les fichiers d’étiquetage ont été créés à partir de l’outil de transcription Transcriber (fichiers TRS), libre de droit.
    • Un lexique phonétique contenant tous les mots prononcés dans la base de données. La 1ère colonne contient l’orthographe du mot français. La 2ème colonne représente la fréquence du mot. La 3ème colonne contient la prononciation au format SAMPA. Voici pour exemple une entrée du lexique:
    2) agitée 3 A/ Z i t e
    • La documentation et des statistiques sont également fournies avec la base de données.

    L’annotation sémantique du corpus est disponible dans le catalogue sous la référence ELRA-E0024 (Package d’évaluation MEDIA).
    Production
    Projet : EVALDA
    Applications
    Domaine d'applications : Tourism
    Informations techniques
    Support de distribution : DVD
    Format de fichiers : wav
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
     
    Prix Membres
    Academic - Commercial 5000.00 EUR
    Academic - Research 1000.00 EUR
    Commercial - Commercial 5000.00 EUR
    Commercial - Research 5000.00 EUR
    Prix Non Membres
    Academic - Commercial 10000.00 EUR
    Academic - Research 2000.00 EUR
    Commercial - Commercial 10000.00 EUR
    Commercial - Research 10000.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0