Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Informations
Procédure & Conditions d'achat
Prix et licences d'utilisation
Comment promouvoir vos ressources ?
Contactez-nous
Référence Catalogue : S0272
Base de données MEDIA pour le français
La base de données MEDIA pour le français a été produite dans le cadre du projet national français MEDIA (« Méthodologie d'Evaluation automatique de la compréhension hors et en contexte du DIAlogue »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT).
Elle comprend 1 258 dialogues transcrits pour 250 locuteurs adultes. La méthode choisie pour la construction du corpus est celle d’un système « magicien d’Oz ». Elle consiste à simuler un dialogue homme-machine en langage naturel. Le scénario est construit pour le domaine du tourisme et de la réservation d’hôtel.
La base de données a été formatée d’après les conventions SpeechDat et contient les éléments suivants:
• 1 258 sessions d’enregistrements pour un total de 70 heures de parole. Les signaux sont stockés au format de fichier wave stereo. Les deux canaux de parole sont enregistrés en 8kHz 16 bit, avec l’octet le moins significatif en premier (“lohi” ou format Intel) en entiers (signés).
• La transcription manuelle de chaque session au format XML. Les fichiers d’étiquetage ont été créés à partir de l’outil de transcription Transcriber (fichiers TRS), libre de droit.
• Un lexique phonétique contenant tous les mots prononcés dans la base de données. La 1ère colonne contient l’orthographe du mot français. La 2ème colonne représente la fréquence du mot. La 3ème colonne contient la prononciation au format SAMPA. Voici pour exemple une entrée du lexique:
2) agitée 3 A/ Z i t e
• La documentation et des statistiques sont également fournies avec la base de données.
L’annotation sémantique du corpus est disponible dans le catalogue sous la référence ELRA-E0024 (Package d’évaluation MEDIA).
Production
Projet :
EVALDA
Applications
Domaine d'applications :
Tourism
Informations techniques
Support de distribution :
DVD
Format de fichiers :
wav
Contenus
Cliquer sur la flèche afin d'afficher les informations des contenus.
speech corpus
Langue(s) :
français
Byte Order :
Lo-Hi
Data Format :
Signed integer
Duration :
70 hours
Quantisation :
16 bits
Clipping Rate Percentage :
8 kHz
Source Channel :
Telephone
Task :
Tourism and Hotel reservation
Transcription Entries :
Orthographic
Prix Membres
Academic - Commercial 5000.00 EUR
Academic - Research 1000.00 EUR
Commercial - Commercial 5000.00 EUR
Commercial - Research 5000.00 EUR
Prix Non Membres
Academic - Commercial 10000.00 EUR
Academic - Research 2000.00 EUR
Commercial - Commercial 10000.00 EUR
Commercial - Research 10000.00 EUR
samedi 31 juillet, 2010
5266439 requêtes depuis le lundi 27 septembre, 2004
Copyright © 2008
ELRA
ELRACatalogue 0.8.0