ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : S0157
    Corpus NetDC d'actualités radio-diffusées arabes
    Le corpus NetDC d'actualités radio-diffusées arabes a été développé par ELDA dans le cadre du projet européen NetDC (Network of Data Centres – Réseau de centres de données). Le projet a été réalisé en collaboration avec le LDC (Linguistic Data Consortium), qui a produit un corpus similaire à partir d’actualités diffusées par Voice of America en arabe aux Etats-Unis. La base de données comprend environ 22,5 heures d’actualités enregistrées sur Radio Orient (France) sur une période de 3 mois entre novembre 2001 et janvier 2002 (37 enregistrements d’actualités, dont 32 diffusées à 17h55 et 5 diffusées à 22h55). La langue de diffusion est de l’arabe standard tel que parlé au Moyen Orient. La base de données est distribuée sur 1 DVD-ROM. Elle a été validée par SPEX, Pays-Bas, afin de vérifier sa conformité avec le format NetDC et les spécifications du contenu.

    Les enregistrements ont été réalisés depuis une réception radio Sangean ATS 909 connectée à un PC. Ils ont été codés à 16 kHz, 16 bits, un seul canal. Les données sont fournies au format PCM brut (.wav) avec en-tête.

    Le corpus a été segmenté, étiqueté et transcrit manuellement grâce au logiciel “Transcriber”, développé par la DGA (Délégation Générale pour l'Armement, France) et le LDC (Linguistic Data Consortium, Etats-Unis) (avec un patch complémentaire pour la langue arabe). Les transcriptions ont été réalisées en caractère arabe et le logiciel a généré les transcriptions de manière automatique. Les transcriptions comprennent les tours de parole, les thèmes et le canal d’information.

    Chaque fichier de parole (extension .wav) est fourni avec un fichier ASCII SAM comprenant les informations sur l’enregistrement (extension .sam), ainsi q’un fichier d’accompagnement comprenant la transcription au format xml (extension .trs) et l’information sur le canal. Un lexique phonétique en SAMPA arabe est également fourni.
    Production
    Projet : Network of Distribution Centers (NetDC)
    Applications
    application possibles : Discourse analysis#Speaker verification#Speech recognition
    Domaine d'applications : Training#Research
    Informations techniques
    Mode de développement : Manual
    Compression : None
    Support de distribution : DVD
    Plate-forme : PC
    Format de fichiers : wav
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
    Fichiers complémentaires
  • Télécharger Rapport de validation
  •  
    Prix Membres
    Academic - Commercial 1350.00 EUR
    Academic - Research 100.00 EUR
    Commercial - Commercial 1350.00 EUR
    Commercial - Research 1350.00 EUR
    Prix Non Membres
    Academic - Commercial 2700.00 EUR
    Academic - Research 200.00 EUR
    Commercial - Commercial 2700.00 EUR
    Commercial - Research 2700.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0