ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-S0387
    Base de données SALA II de l’anglais américain (2000 locuteurs)
    La base de données SALA II de l’anglais américain collectée aux Etats-Unis a été enregistrée dans le cadre du projet SALA II. Elle contient les enregistrements d'environ 2000 locuteurs de l’anglais américain (équilibrés de façon égale entre locuteurs masculins et féminins, y compris quelques locuteurs avec un accent hispanique) enregistrés à travers le réseau téléphonique mobile des Etats-Unis.

    Les conditions acoustiques suivantes ont été choisies comme l’environnement représentatif d’un utilisateur de portable (certains locuteurs ont été enregistrés dans plusieurs environnement):
    - Passager dans une voiture en marche, en train, en bus, etc.
    - Lieu public
    - Piéton à l’arrêt à côté d’une route
    - Environnement domicile/bureau
    - Passager dans une voiture en marche utilisant un kit mains-libres

    Selon les spécifications de SALA II, les fichiers de parole sont stockés en séquences d'échantillons de 8 bit, 8 kHz, loi-Mu et ne sont pas compressés. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.

    Cette base de données a été validée par SPEX (Pays-Bas) afin de vérifier sa conformité avec le format SALA II et les spécifications du contenu.

    Contenu du corpus :
    - 6 mots de commande (à partir d’un ensemble de 30);
    - 1 séquence de 10 chiffres isolés ;
    - 4 chiffres connectés : 1 numéro permettant d'identifier la feuille de prompt (5+ chiffres), 1 numéro de téléphone (9-11 chiffres), 1 numéro de carte de crédit (14-16 chiffres), 1 code confidentiel (6 chiffres) ;
    - 3 dates : 1 date spontanée (ex. anniversaire), 1 date lue, 1 date générale ;
    - 1 expression utilisant un mot de commande ;
    - 2 chiffres isolés ;
    - 3 mots épelés : 1 prénom, 1 nom de ville provenant d'un annuaire de renseignements téléphoniques, 1 mot réel/artificiel pour couverture ;
    - 1 montant en devises ;
    - 1 nombre entier naturel ;
    - 5 noms provenant d'un annuaire de renseignements téléphoniques : 1 spontané (par ex. nom de famille), 1 ville de naissance/d'origine du locuteur (spontané), 1 nom de ville parmi les plus fréquentes (sur 500), 1 nom de compagnie parmi les plus fréquentes (sur 500), 1 répétition de "prénom nom" ;
    - 2 questions oui/non : 1 question à prédominance "oui", 1 question à prédominance "non" (y compris questions potentiellement floues) ;
    - 9 phrases phonétiquement riches ;
    - 2 phrases comportant une notion de temps : 1 jour (spontané), 1 phrase comportant une notion de temps ;
    - 4 mots phonétiquement riches.

    Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

    ISLRN : 829-229-153-801-9
    Production
    Projet : SALA II
    Informations techniques
    Support de distribution : Downloadable
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
     

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0