Le corpus oral d’actualités radiophoniques NEMLAR est composé d’environ 40 heures d’émissions radiophoniques en arabe standard. Les émissions ont été enregistrées depuis quatre stations de radio différentes : Medi1, Radio Orient, RMC – Radio Monte Carlo, RTM – Radio Télévision Maroc. Tous les fichiers ont été enregistrés au format linéaire PCM, 16 kHz, 16 bit.
Le corpus de synthèse de parole NEMLAR comprend les enregistrements de 2 locuteurs de langue maternelle arabe égyptien (homme et femme, respectivement de 35 et 27 ans), réalisés dans un studio depuis 2 canaux (voix et laryngographe). Les enregistrements sont constitués de plus de 10 heures de données avec leurs transcriptions.
Le corpus écrit NEMLAR est constitué de 500 000 mots de texte arabe regroupées en 13 catégories différentes. Le corpus est fourni sous la forme de 4 versions différentes: texte brut, texte entièrement voyellé, texte comprenant une analyse lexicale de l’arabe, texte comprenant des étiquettes pour la partie du discours.