1 Last update: 2017-10-05

GlobalPhone Hausa

View resource name in all available languages

GlobalPhone haoussa

ISLRN: 727-452-225-740-0

ID:

ELRA-S0347

The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks.

The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 22 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swahili (ELRA-S0375), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Ukrainian (ELRA-S0377), and Vietnamese (ELRA-S0322).

In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary. The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6). The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 2100 native adult speakers.

Data is shortened by means of the shorten program written by Tony Robinson. Alternatively, the data could be delivered unshorten.

Hausa is a member of the Chadic language family, and belongs together with the Semitic and Cushitic languages to the Afroasiatic language family. With over 25 million speakers, it is widely spoken in West Africa. The collection of the Hausa speech and text corpus followed the GlobalPhone collection standards. First, a large text corpus was built by crawling websites that cover main Hausa newspaper sources. Hausa’s modern official orthography is a Latin-based alphabet called Boko, which was imposed in the 1930s by the British colonial administration. It consists of 22 characters of the English alphabet plus five special characters. The collection is based on five main newspapers written in Boko.

After cleaning and normalization, these texts were used to build language models and to select prompts for the speech data recordings.

Native speakers of Hausa were asked to read prompted sentences of newspaper articles. The entire collection took place in 5 different locations in Cameroon. In total, the corpus contains 7,895 utterances spoken by 33 male and 69 female speakers in the age range of 16 to 60 years. The speech data contains a variety of accents: Maroua, Douala, Yaoundé, Bafoussam, Ngaoundéré, and Nigeria. The accents are documented in the speaker information files. All speech data was recorded with a headset microphone in different environmental conditions, with some slightly noisy parts. The data is sampled at 16 kHz with a resolution of 16 bits and stored in PCM encoding. The division of the Hausa GlobalPhone database into the training, development, and evaluation set is listed in the table below.

Set Male Female #utterances #tokens Duration
Training 24 58 5,863 40k 6 hrs 36 min
Development 4 6 1,021 6k 1 hrs 02 min
Evaluation 5 5 1,011 6k 1 hrs 06 min
Total 33 69 7,895 52k 8 hrs 44 min

View resource description in French

Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue.

Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 22 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), swahili (ELRA-S0375), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206), ukrainien (ELRA-S0377) et vietnamien (ELRA-S0322).

Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire. Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6). Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 2100 locuteurs adultes natifs.

La langue haoussa fait partie de la famille de langues tchadiques et appartient, avec les langues sémitiques et couchitiques, à la famille de langues afro-asiatiques. Avec plus de 25 millions de locuteurs, elle est largement parlée en Afrique de l’Ouest. La collecte de corpus de parole et de texte haoussa a suivi les standards de collecte GlobalPhone. Tout d’abord, un large corpus de textes a été construit en explorant automatiquement des sites web qui couvrent les sources journalistiques principales en hausa. L’orthographe officielle moderne du haoussa est un alphabet basé sur le latin et appelé boko, qui a été imposée dans les années 1930 par l’administration coloniale britannique. Elle est constituée de 22 caractères d’alphabet anglais plus cinq caractères spéciaux. Le corpus est basé sur cinq journaux principaux écrits en boko.

Après des tâches de nettoyage et de normalisation, les textes ont été utilisés pour construire des modèles de langage et sélectionner des prompts pour les enregistrements de données de parole.

On a demandé à des locuteurs de langue maternelle haoussa de lire des phrases d’articles de journaux (prompts). La totalité de la collecte a été réalisée dans 5 lieux différents au Cameroun. Au total, le corpus contient 7895 occurrences enregistrées par 33 locuteurs hommes et 69 locuteurs femmes dont l’âge est compris entre 16 et 60 ans. Les données de paroles contiennent une variété d’accents: Maroua, Douala, Yaoundé, Bafoussam, Ngaoundéré, et Nigéria. Les accents sont documentés dans les fichiers d’information sur les locuteurs. Toutes les données de parole ont été enregistrées avec un micro-casque dans différentes conditions environnementales, parfois légèrement bruitées. Les données sont échantillonnées à 16 kHz avec une résolution de 16 bits et sont stockées en codage PCM. La répartition de la base de données GlobalPhone haoussa entre les ensembles d’apprentissage, de développement et d’évaluation est présentée dans le tableau ci-dessous.

Ensemble Hommes Femmes #occurrences #tokens durée
Apprentissage 24 58 5863 40k 6 h 36 m
Développement 4 6 1021 6k 1 h 02 m
Evaluation 5 5 1011 6k 1 h 06 m
Total 33 69 7895 52k 8 h 44 m

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	600.00 €	3000.00 €
Licence: Commercial Use - ELRA VAR	3000.00 €	3000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	700.00 €	3600.00 €
Licence: Commercial Use - ELRA VAR	3600.00 €	3600.00 €

Special offer:

Special prices for a purchase of several GlobalPhone languages:

(Member price - Non Member price (in EURO)
R = research purposes for Academic organisations only
C = commercial purposes)

• 5 languages:
R. 2600 - R. 3000
C. 13500 - C. 16200
• 10 languages:
R. 5000 - R. 6000
C. 24000 - C. 28800
• 15 languages:
R. 7500 - R. 9000
C. 31500 - C. 37800
• 20 languages:
R. 10000 - R. 12000
C. 39000 - C. 50000
• 22 languages:
R. 10400- R. 12855
C. 40925- C. 52725

GlobalPhone Vietnamese
GlobalPhone Polish
GlobalPhone Thai
GlobalPhone Bulgarian
GlobalPhone Spanish (Latin American)
GlobalPhone Portuguese (Brazilian)
GlobalPhone Tamil
GlobalPhone Swedish
GlobalPhone Turkish
GlobalPhone Russian
GlobalPhone Korean
GlobalPhone Japanese
GlobalPhone German
GlobalPhone Chinese-Shanghai
GlobalPhone Arabic
GlobalPhone Czech
GlobalPhone Croatian
GlobalPhone French
GlobalPhone Chinese-Mandarin
GlobalPhone Ukrainian
GlobalPhone Swahili

Set	Male	Female	#utterances	#tokens	Duration
Training	24	58	5,863	40k	6 hrs 36 min
Development	4	6	1,021	6k	1 hrs 02 min
Evaluation	5	5	1,011	6k	1 hrs 06 min
Total	33	69	7,895	52k	8 hrs 44 min

Ensemble	Hommes	Femmes	#occurrences	#tokens	durée
Apprentissage	24	58	5863	40k	6 h 36 m
Développement	4	6	1021	6k	1 h 02 m
Evaluation	5	5	1011	6k	1 h 06 m
Total	33	69	7895	52k	8 h 44 m