ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-S0094
    Base de données SpeechDat(E) du tchèque
    La base de données SpeechDat(E) (Bases de données d'Europe de l'Est pour la création de téléservices conduits par la voix) du tchèque contient 1052 locuteurs tchèque (526 hommes, 526 femmes) enregistrés à travers le réseau téléphonique fixe tchèque. Cette base est répartie sur 6 CD-ROM. Les bases de données ont été réalisées selon les spécifications du projet SpeechDat(E) et validées par SPEX, Pays-Bas.

    Les fichiers de parole sont stockés en séquences d'échantillons de 8 bit, 8 kHz, loi-A. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.Contenu du corpus :

    - 6 mots de commande ;
    - 1 séquence de 10 chiffres isolés ;
    - 4 chiffres connectés : 1 numéro permettant d'identifier la feuille de prompt (+5 chiffres), 1 numéro de téléphone (9-11 chiffres), 1 numéro de carte de crédit (14-16 chiffres), 1 code confidentiel (6 chiffres) ;
    - 3 dates : 1 date spontanée (ex. anniversaire), 1 date lue, 1 date générale ;
    - 1 expression utilisant un mot de commande ;
    - 1 chiffre isolé ;
    - 3 mots épelés (séquences de lettres) : 1 spontané (ex: prénom), 1 nom de ville provenant d'un annuaire de renseignements téléphoniques, 1 mot réel/artificiel pour couverture ;
    - 2 montants en devises : 1 montant en devise polonaise, 1 montant en devise internationale (Dollar, EURO)
    - 1 nombre entier naturel ;
    - 6 noms provenant d'un annuaire de renseignements téléphoniques : 1 spontané (ex: prénom), 1 ville de naissance/d'origine du locuteur (spontané), 1 nom de ville parmi les plus fréquentes (sur 500), 1 nom de compagnie parmi les plus fréquentes (sur 500), 1 répétition de "prénom nom" ; 1 répétition de "nom" ;
    - 2 questions incluant des oui/non "vagues" : 1 question à prédominance "oui", 1 question à prédominance "non" ;
    - 12 phrases phonétiquement riches ;
    - 2 phrases comportant une notion de temps : 1 jour (spontané), 1 phrase comportant une notion de temps ;
    - 4 mots phonétiquement riches.
    - 4 questions supplémentaires (spontanées)
    Les classes d'âge sont réparties comme suit : 20 locuteurs de moins de 16 ans, 490 locuteurs entre 16 et 30 ans, 238 locuteurs entre 31 et 45 ans, 230 locuteurs entre 46 et 60 ans, 71 locuteurs de plus de 60 ans et 3 locuteurs d'âge inconnu.

    Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

    ISLRN : 891-889-899-078-7
    Production
    Projet : SpeechDat(II) LE2-4001
    Applications
    Applications existantes : Speech recognition#Voice control#Voice control
    Informations techniques
    Mode de développement : Manual
    Compression : None
    Support de distribution : Downloadable
    Plate-forme : PC#Unix#Macintosh
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus #1642
     speech lexicon #2642
    Fichiers complémentaires
  • Télécharger Rapport de validation
  •  
    Prix Membres
    Academic - Commercial 16000.00 EUR
    Academic - Research 10000.00 EUR
    Commercial - Commercial 16000.00 EUR
    Commercial - Research 16000.00 EUR
    Prix Non Membres
    Academic - Commercial 16000.00 EUR
    Academic - Research 10000.00 EUR
    Commercial - Commercial 16000.00 EUR
    Commercial - Research 16000.00 EUR

    Prix Spéciaux

    Usage de recherche par une organisation tchèque.

    Prix Spéciaux Membres
    :Academic - Research 7500.00 EUR
    Prix Spéciaux Non Membres
    :Academic - Research 7500.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0