Arabic Speech Corpus

View resource name in all available languages

Corpus oral arabe

866-568-447-697-8

ID:

ELRA-S0384

This speech corpus has been developed as part of a PhD work carried out by Nawar Halabi at the University of Southampton. The corpus was recorded through a Neumann TLM 103 Studio Microphone by one male speaker in South Levantine Arabic (Damascian accent) in a professional studio. The transcript was collected from “Aljazeera Learn” (Aljazeera 2015), a language learning website which was chosen because it contained fully diacritised text which makes it easier to phonetise. The transcript was split into utterances based on punctuation, to make it easier for the speaker during the recording sessions. Synthesized speech as an output using this corpus has produced a high quality, natural voice. It consists of 1813 utterances for a total of 3.7 hours consisting of:
- 2.1 hours of normal utterances,
- 1.6 hours of nonsense utterances (utterances that are not semantically, orthographically or syntactically correct).

This package corresponds to version 2.0 of the corpus and includes:
- 1813 .wav files containing spoken utterances,
- 1813 .lab files containing text utterances,
- 1813 .TextGrid files containing the phoneme labels with time stamps of the boundaries where these occur in the .wav files. These files can be opened using Praat software (see http://www.fon.hum.uva.nl/praat/),
- phonetic transcriptions are gathered in one single text file which has the form "[wav_filename]" "[Phoneme Sequence]" in every line.
- orthographic transcriptions are gathered in one single text file which has the form "[wav_filename]" "[Orthographic Transcript]" in every line. Orthography is in Buckwalter Format (see http://www.qamus.org/transliteration.htm) which is friendlier where there is a software that does not read Arabic script. It can be easily converted back to Arabic.
- An extra set of 18 minutes of fully annotated corpus, used to evaluate the corpus, is also provided (separate from above but with the same structure as above).

Arabic Speech Corpus by Nawar Halabi is licensed either under a Creative Commons Attribution License or under ELRA VAR agreement for commercial use.

View resource description in French

Ce corpus oral a été développé dans le cadre d’un travail de thèse réalisé par Nawar Halabi à l’Université de Southampton. Le corpus a été enregistré à partir d’un microphone studio Neumann TLM 103 par un locuteur homme en arabe sud-levantin (accent de Damas) dans un studio professionnel. Le corpus d’origine a été collecté à partir d’un site web d’apprentissage de la langue, “Aljazeera Learn” (Aljazeera 2015), qui a été choisi en raison de son texte comprenant entièrement des diacritiques facilitant le travail de phonétisation. Le corpus a été découpé en occurrences basées sur la ponctuation, plus simple pour le locuteur pendant les sessions d’enregistrement. La parole synthétisée donnée résultant de ce corpus a permis de produire une voix naturelle de haute qualité. Elle comprend 1813 occurrences pour un total de 3,7 heures consistant en:
- 2,1 heures d’occurrences “normales”,
- 1,6 heures d’occurrences comprenant des “non-sens” (occurrences incorrectes au niveau sémantique, orthographique ou syntaxique).

Ce package correspond à la version 2.0 du corpus et contient:
- 1813 fichiers .wav contenant les occurrences orales,
- 1813 fichiers .lab contenant les occurrences textuelles,
- 1813 fichiers .TextGrid contenant les étiquettes de phonèmes et les marques temporelles des limites d’occurrences telles qu’elles apparaissent dans les fichiers .wav. Ces fichiers peuvent être ouverts en utilisant le logiciel Praat (voir http://www.fon.hum.uva.nl/praat/),
- les transcriptions phonétiques sont regroupées dans un fichier texte unique se présentant sous la forme "[nom de fichier wav]" "[Séquence phonémique]" à chaque ligne.
- les transcriptions orthographiques sont regroupées dans un fichier texte unique se présentant sous la forme "[ nom de fichier wav]" "[Transcription orthographique]" à chaque ligne. L’orthographe est au format Buckwalter (voir http://www.qamus.org/transliteration.htm) qui est plus convivial pour les logiciels ne lisant par les scripts en arabe. Il peut être facilement reconverti en caractères arabes,
- un ensemble supplémentaire de 18 minutes de corpus entièrement annoté, utilisé pour évaluer le corpus, est également fourni (distinct du reste du corpus mais avec la même structure).

Le corpus oral arabe de Nawar Halabi est disponible sous license Creative Commons Attribution ou sous la licence ELRA VAR pour usage commercial.

MEMBERacademiccommercial
Licence: Commercial Use - ELRA VAR
9000.00 € submit
Licence: Attribution - CC-BY
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Commercial Use - ELRA VAR
11200.00 € submit
Licence: Attribution - CC-BY
0.00 € submit
0.00 € submit
19/08/2016
People who looked at this resource also viewed the following: