Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Informations
Procédure & Conditions d'achat
Prix et licences d'utilisation
Comment promouvoir vos ressources ?
Contactez-nous
Référence Catalogue : S0157
Corpus NetDC d'actualités radio-diffusées arabes
Le corpus NetDC d'actualités radio-diffusées arabes a été développé par ELDA dans le cadre du projet européen NetDC (Network of Data Centres – Réseau de centres de données). Le projet a été réalisé en collaboration avec le LDC (Linguistic Data Consortium), qui a produit un corpus similaire à partir d’actualités diffusées par Voice of America en arabe aux Etats-Unis. La base de données comprend environ 22,5 heures d’actualités enregistrées sur Radio Orient (France) sur une période de 3 mois entre novembre 2001 et janvier 2002 (37 enregistrements d’actualités, dont 32 diffusées à 17h55 et 5 diffusées à 22h55). La langue de diffusion est de l’arabe standard tel que parlé au Moyen Orient. La base de données est distribuée sur 1 DVD-ROM. Elle a été validée par SPEX, Pays-Bas, afin de vérifier sa conformité avec le format NetDC et les spécifications du contenu.
Les enregistrements ont été réalisés depuis une réception radio Sangean ATS 909 connectée à un PC. Ils ont été codés à 16 kHz, 16 bits, un seul canal. Les données sont fournies au format PCM brut (.wav) avec en-tête.
Le corpus a été segmenté, étiqueté et transcrit manuellement grâce au logiciel “Transcriber”, développé par la DGA (Délégation Générale pour l'Armement, France) et le LDC (Linguistic Data Consortium, Etats-Unis) (avec un patch complémentaire pour la langue arabe). Les transcriptions ont été réalisées en caractère arabe et le logiciel a généré les transcriptions de manière automatique. Les transcriptions comprennent les tours de parole, les thèmes et le canal d’information.
Chaque fichier de parole (extension .wav) est fourni avec un fichier ASCII SAM comprenant les informations sur l’enregistrement (extension .sam), ainsi q’un fichier d’accompagnement comprenant la transcription au format xml (extension .trs) et l’information sur le canal. Un lexique phonétique en SAMPA arabe est également fourni.
Production
Projet :
Network of Distribution Centers (NetDC)
Applications
application possibles :
Discourse analysis#Speaker verification#Speech recognition
Domaine d'applications :
Training#Research
Informations techniques
Mode de développement :
Manual
Compression :
None
Support de distribution :
DVD
Plate-forme :
PC
Format de fichiers :
wav
Contenus
Cliquer sur la flèche afin d'afficher les informations des contenus.
speech corpus
Langue(s) :
arabe
Duration :
22.5 hours
Quantisation :
16 kHz
signal Encoding :
Linear PCM
Clipping Rate Percentage :
16 bits
Source Channel :
Radio
Transcription Entries :
Orthographic
Fichiers complémentaires
Rapport de validation
Prix Membres
Academic - Commercial 1350.00 EUR
Academic - Research 100.00 EUR
Commercial - Commercial 1350.00 EUR
Commercial - Research 1350.00 EUR
Prix Non Membres
Academic - Commercial 2700.00 EUR
Academic - Research 200.00 EUR
Commercial - Commercial 2700.00 EUR
Commercial - Research 2700.00 EUR
samedi 31 juillet, 2010
5266454 requêtes depuis le lundi 27 septembre, 2004
Copyright © 2008
ELRA
ELRACatalogue 0.8.0