ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : S0219
    Corpus oral d’actualités radiophoniques NEMLAR
    Ce corpus a été produit dans le cadre du projet NEMLAR (http://www.nemlar.org). Deux autres ressources, produites dans le cadre du même projet, sont également disponibles : le corpus écrit NEMLAR (ELRA-W0042) et le corpus de synthèse de parole NEMLAR (ELRA-S0220).

    Le corpus oral d’actualités radiophoniques NEMLAR est composé d’environ 40 heures d’émissions radiophoniques en arabe standard. Les émissions ont été enregistrées depuis quatre stations de radio différentes : Medi1, Radio Orient, RMC – Radio Monte Carlo, RTM – Radio Télévision Maroc.

    Chaque transmission contient entre 25 et 30 minutes d’actualités et d’interviews. Les enregistrements ont été effectués à trois périodes différentes entre le 30 juin 2002 et le 18 juillet 2005. Tous les fichiers ont été enregistrés au format linéaire PCM, 16 kHz, 16 bit.

    Le logiciel utilisé pour la transcription est Transcriber avec un patch complémentaire pour l’arabe. Ainsi, les transcriptions ont été réalisées en caractères arabes et le logiciel a généré automatiquement les translittérations. Les niveaux d’annotation suivants sont inclus :
    • Transcription orthographique de la parole (pour les actualités, mais pas pour la musique, les publicités, etc.), en incluant les entités nommées
    • Locuteurs et tours de locuteurs
    • Les marqueurs de segment (en portions de 10 secondes au maximum)
    • Limites des thèmes/histoires
    • Bruits de fond (événements de petites fournitures et bruits instantanés)
    • Changements de fond
    • Musique/bruit
    • Limites des mots

    Un lexique de 62 000 mots avec translittérations, fréquence et SAMPA arabe est également inclus.

    La base de données est distribuée sur 1 DVD-ROM ISO 9660. Elle a été validée par un partenaire externe et un rapport de validation est fourni.
    Production
    Projet : NEMLAR (Network for Euro-Mediterranean LAnguage Resources)
    Informations techniques
    Support de distribution : DVD
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
    Fichiers complémentaires
  • Télécharger Rapport de validation
  •  
    Prix Membres
    Academic - Commercial 2000.00 EUR
    Academic - Research 150.00 EUR
    Commercial - Commercial 2000.00 EUR
    Commercial - Research 500.00 EUR
    Prix Non Membres
    Academic - Commercial 4000.00 EUR
    Academic - Research 300.00 EUR
    Commercial - Commercial 4000.00 EUR
    Commercial - Research 1000.00 EUR

    Prix Spéciaux

    Réductions offertes pour l'achat de plusieurs ressources NEMLAR (W0042, S0219 et S0220):
    • 15% de réduction sur l'achat de 2 ressources,
    • 30% de réduction sur l'achat de 3 ressources.


    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0