ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-S0293
    Base de données HIWIRE, corpus de parole en anglais pour la communication en cockpit en milieu bruité
    Cette base de données a été collectée et finalisée sous les auspices du projet IST-EU STREP HIWIRE (« Human Input that Works In Real Environments »). La base de données a été conçue pour être utilisée comme outil de développement et de test des techniques de traitement et reconnaissance de la parole en relation avec la reconnaissance de la parole robuste « non native ».

    La base de données comprend 8099 occurrences en anglais prononcées par des locuteurs non natifs de l’anglais (31 locuteurs français, 20 grecs, 20 italiens et 10 espagnols). Les occurrences collectées correspondent à des entrées humaines dans une application de commande et de contrôle aéronautique. Les données ont été enregistrées en studio avec un microphone « close-talk » et du bruit réel enregistré dans un cockpit d’avion a été ajouté aux données. Les signaux sont fournis dans 4 conditions: propre (enregistrements studio avec microphone « close talk »), milieu bruité faible, milieu bruité moyen et milieu bruité élevé. Les trois niveaux de bruit correspondent approximativement et respectivement aux ratios signal-bruit de 10dB, 5dB and -5 dB.

    Les données audio propres ont été enregistrées dans différents bureaux en utilisant un microphone « close-talk » pour effets acoustiques ambiants faibles (Plantronics USB-45). La fréquence d’échantillonnage utilisée est de 16 kHz et les données sont stockées au format Windows PCM WAV 16 bits mono.

    Les enregistrements correspondent à des prompts extraits d’applications de commande et de contrôle aéronautique. Un total de 8099 occurrences a été enregistré par 81 locuteurs ayant prononcé 100 occurrences chacun. La répartition des locuteurs est la suivante:








    Pays# Locuteurs# Occurrences
    France31 (38.3%)3100
    Grèce20 (24.7%)2000
    Italie20 (24.7%)2000
    Espagne10 (12.3%)999
    Total818099


    Pour générer les occurrences des données bruitées, le niveau de parole est maintenu et seule l’amplitude du bruit est modifiée pour obtenir le SNR souhaité. L’amplitude du bruit est ajustée pour obtenir trois valeurs SNR moyennes de 10dB, 5dB and -5dB qui sont référencées en conditions « low noise » (LN), « mid noise » (MN) et « high noise » (HN). Pour chaque condition donnée, le niveau de bruit reste constant.

    Les données de parole sont des fichiers pcm-wav (16kHz / 16 bits / mono) stockées sur un DVD. La taille totale est de 3,03 Goctets pour 33053 fichiers.

    ISLRN : 934-733-835-065-0
    Production
    Projet : HIWIRE (Human Input that Works In Real Environments) Date de création : January 2007
    Applications
    Applications existantes : Speech recognition
    Informations techniques
    Support de distribution : Downloadable
    Format de fichiers : wav
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
     
    Prix Membres
    Academic - Commercial 2500.00 EUR
    Academic - Research 50.00 EUR
    Commercial - Commercial 2500.00 EUR
    Commercial - Research 50.00 EUR
    Prix Non Membres
    Academic - Commercial 3500.00 EUR
    Academic - Research 50.00 EUR
    Commercial - Commercial 3500.00 EUR
    Commercial - Research 50.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0