Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Informations
Procédure & Conditions d'achat
Prix et licences d'utilisation
Comment promouvoir vos ressources ?
Contactez-nous
Référence Catalogue : S0227
PAIDIALOGOS (projet NEOLOGOS)
La base de données PAIDIALOGOS a été produite dans le cadre du projet national français NEOLOGOS, du programme Technolangue, financé par le ministère français chargé de la recherche et des nouvelles technologies (MRNT). Les bases de données produites dans le cadre du projet NEOLOGOS ont été conçues pour le développement et la vérification de systèmes de reconnaissance de la parole ou du locuteur en français, ainsi que pour les synthétiseurs de parole. Elles consistent en :
1) les bases IDIOLOGOS sont composées de voix adultes et sont disponibles sous la forme de 2 sous-ensembles :
- la base de données “Bootstrap” (réf. catalogue ELRA-S0226-01),
- la base de données “Eingenspeakers” (réf. catalogue ELRA-S0226-02) ;
2) la base de données PAIDIALOGOS (réf. catalogue ELRA-S0227) est composée de voix d’enfants et d’adolescents.
La base de données PAIDIALOGOS contient 37 364 occurrences de 1010 locuteurs français enfants (510 hommes, 500 femmes) enregistrés à travers le réseau téléphonique fixe français.
Cette base est distribuée sur 1 DVD-ROM. Selon les spécifications de NEOLOGOS, les fichiers de parole sont stockés en séquences d'échantillons de 8 bit, 8 kHz, loi-A et ne sont pas compressés. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.
Cette base de données a été validée par SPEX (Pays-Bas) afin de vérifier sa conformité avec le format NEOLOGOS et les spécifications du contenu.
Contenu du corpus :
• 3 mots de commande (à partir d’un ensemble de 42);
• 4 chiffres connectés : 2 séquences de 3 chiffres isolés, 1 numéro permettant d'identifier la feuille de prompt (7 chiffres), 1 numéro de téléphone (10 chiffres) ;
• 3 dates : 1 date spontanée (ex. anniversaire), 1 date lue, 1 date générale ;
• 2 chiffres isolés ;
• 3 mots épelés : 1 prénom, 1 nom de ville provenant d'un annuaire de renseignements téléphoniques, 1 mot réel/artificiel pour couverture ;
• 1 montant en devises ;
• 1 devise (mot optionnel) ;
• 1 nombre entier naturel ;
• 4 noms provenant d'un annuaire de renseignements téléphoniques : 1 spontané (par ex. nom de famille), 1 ville où l’enregistrement a été réalisé, 1 nom de ville française parmi les plus fréquentes (sur 40), 1 répétition de "prénom nom" ;
• 2 questions oui/non : 1 question à prédominance "oui", 1 question à prédominance "non" ;
• 6 phrases phonétiquement riches ;
• 2 phrases comportant une notion de temps : 1 heure de l’appel (spontané), 1 phrase comportant une notion de temps ;
• 2 mots phonétiquement riches.
Les classes d'âge sont réparties comme suit : 6 locuteurs ont moins de 7 ans, 541 locuteurs ont entre 7 et 11 ans, 308 locuteurs ont entre 12 et 14 ans, 154 locuteurs ont entre 15 et 16 ans et 1 locuteur a plus de 16 ans.
Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.
Production
Projet :
NEOLOGOS
Contenus
Cliquer sur la flèche afin d'afficher les informations des contenus.
speech corpus
Langue(s) :
français
Quantisation :
8-bit
signal Encoding :
A-law
Source Channel :
Telephone
Annotation Level :
Orthographic
Fichiers complémentaires
Rapport de validation
Prix Membres
Academic - Commercial 14000.00 EUR
Academic - Research 2000.00 EUR
Commercial - Commercial 14000.00 EUR
Commercial - Research 14000.00 EUR
Prix Non Membres
Academic - Commercial 23000.00 EUR
Academic - Research 2000.00 EUR
Commercial - Commercial 23000.00 EUR
Commercial - Research 23000.00 EUR
Prix Spéciaux
Prix spéciaux disponibles à la demande pour des études en linguistique ou en sciences humaines.
samedi 31 juillet, 2010
5266435 requêtes depuis le lundi 27 septembre, 2004
Copyright © 2008
ELRA
ELRACatalogue 0.8.0