ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : S0220
    Corpus de synthèse de parole NEMLAR
    Ce corpus a été produit dans le cadre du projet NEMLAR (http://www.nemlar.org). Deux autres ressources, produites dans le cadre du même projet, sont également disponibles : le corpus écrit NEMLAR (ELRA-W0042) et le corpus oral d’actualités radiophoniques NEMLAR (ELRA-S0219).

    Le corpus de synthèse de parole NEMLAR comprend les enregistrements de 2 locuteurs de langue maternelle arabe égyptien (homme et femme, respectivement de 35 et 27 ans), réalisés dans un studio depuis 2 canaux (voix et laryngographe). Les enregistrements sont constitués de plus de 10 heures de données avec leurs transcriptions.

    Les échantillons de parole sont stockés en 96 kHz, 24 bit avec l’octet le moins significatif en premier (“lohi” ou format Intel) en entiers (signés).

    Le locuteur a lu 2 032 phrases énoncées couvrant environ 42 000 mots en trois catégories : parole transcrite (6,600 words - 20%), texte écrit (16,500 words - 50%), et phrases construites (10,300 - 30%).

    La parole transcrite consiste en du texte de différents domaines, produit dans la tâche d’actualités radiophoniques. Le texte écrit est composé d’extraits de phrases courtes d’actualités, de romans et d’histoires courtes. Chaque paragraphe est présenté sur une feuille d’énoncé (prompt).

    Les phrases construites sont constituées de phrases fréquentes et de phrases pour la couverture de diphones. Les phrases fréquentes sont formées telles qu’obtenues à partir de textes écrits (articles, actualités, etc.) et sont subdivisées en six sous-domaines :
    • Expressions familières fréquemment usitées
    • Sports/Jeux
    • Actualités
    • Finances
    • Culture/Divertissement
    • Information au consommateur
    Les phrases pour la couverture des diphones couvrent les diphones manquants ou rares dans toutes les données. Pour couvrir ces diphones, un grand corpus d’environ 150 000 mots a été utilisé, à partir duquel les phrases ont été extraites.

    La base de données est fournie avec la transcription orthographique, prosodique et phonétique en SAMPA. Toutes les transcriptions sont segmentées au niveau de l’occurrence (phrase/mot de commande), annotées au niveau du mot et vérifiées manuellement. Un lexique de prononciation comprenant 3 589 mots avec leur représentation phonétique en SAMPA est également disponible.

    La base de données est distribuée sur 3 DVD-ROM ISO 9660. Elle a été validée par un partenaire externe et un rapport de validation est fourni.
    Production
    Projet : NEMLAR (Network for Euro-Mediterranean LAnguage Resources)
    Informations techniques
    Support de distribution : DVD
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
    Fichiers complémentaires
  • Télécharger Rapport de validation - Report dedicated to male recordings
  • Télécharger Rapport de validation - Report dedicated to female recordings
  •  
    Prix Membres
    Academic - Commercial 5000.00 EUR
    Academic - Research 500.00 EUR
    Commercial - Commercial 5000.00 EUR
    Commercial - Research 1250.00 EUR
    Prix Non Membres
    Academic - Commercial 10000.00 EUR
    Academic - Research 1000.00 EUR
    Commercial - Commercial 10000.00 EUR
    Commercial - Research 2500.00 EUR

    Prix Spéciaux

    Réductions offertes pour l'achat de plusieurs ressources NEMLAR (W0042, S0219 et S0220):
    • 15% de réduction sur l'achat de 2 ressources,
    • 30% de réduction sur l'achat de 3 ressources.


    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0