GlobalPhone Multilingual Model Package – ELRA Catalogue

Last view: 2024-07-25

564 Last view: 2024-07-25

Last update: 2018-10-10

4 Last update: 2018-10-10

GlobalPhone Multilingual Model Package

View resource name in all available languages

Ensemble de modèle multilingue GlobalPhone

ISLRN: 204-945-263-927-6

ID:

ELRA-S0399

The GlobalPhone Multilingual Model Package contains about 22 hours of transcribed read speech spoken by native speakers in 22 languages. The data are sampled from the GlobalPhone Speech and Text Data available in the ELRA Catalogue, i.e.: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swahili (ELRA-S0375), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Ukrainian (ELRA-S0377), and Vietnamese (ELRA-S0322).

The GlobalPhone Multilingual Model Package covers about 1 hour of transcribed speech from 10 speakers (5 male, 5 female) from each of the above listed 22 languages, i.e. on average about 6 minutes or about 41 utterances per speaker from a total of 220 speakers. The package is designed for various tasks in multilingual speech processing research and development, such as (1) multilingual acoustic modeling, (2) multilingual speech synthesis, (3) automatic dictionary generation in multiple languages, and (4) multilingual speech processing with low resources.

View resource description in French

L’ensemble de modèle multilingue GlobalPhone contient environ 22 heures de parole lue transcrite, prononcée par des locuteurs natifs en 22 langues. Les données sont échantillonnées à partir des données orales et textuelles Globalphone disponibles dans le catalogue ELRA: arabe (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), croate (ELRA-S0195), tchèque (ELRA-S0196), français (ELRA-S0197), allemand (ELRA-S0198), haoussa (ELRA-S0347), japonais (ELRA-S0199), coréen (ELRA-S0200), polonais (ELRA-S0320), portugais (Brésilien) (ELRA-S0201), russe (ELRA-S0202), espagnol (d’Amérique latine) (ELRA-S0203), swahili (ELRA-S0375), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), turc (ELRA-S0206), ukrainien (ELRA-S0377), et vietnamien (ELRA-S0322).

Cet ensemble couvre environ 1 heure de parole transcrite pour 10 locuteurs (5 hommes, 5 femmes), de chacune des 22 langues mentionnées ci-dessus, soit une moyenne d’environ 6 minutes ou 41 occurrences par locuteur pour un total de 220 locuteurs. Il est conçu pour diverses tâches de recherche et développement en traitement de la parole multilingue, telles que (1) la modélisation acoustique multilingue, (2) la synthèse de la parole multilingue, (3) la génération automatique de dictionnaires en plusieurs langues, et (4) le traitement de la parole multilingue à partir d’un faible nombre de ressources.

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	1200.00 €	6000.00 €
Licence: Commercial Use - ELRA VAR	6000.00 €	6000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	1400.00 €	7200.00 €
Licence: Commercial Use - ELRA VAR	7200.00 €	7200.00 €

DistributionAvailability start date 02/10/2018 Contact Person

Valérie Mapelli

audio

Multilingual audio corpusLanguages

Vietnamese

Language Script: Latin

Chinese Arabic

Language Script: Arabic

Czech

Language Script: Latin

Croatian

Language Script: Latin

German

Language Script: Latin

French

Language Script: Latin

Bulgarian

Language Script: Cyrillic

Korean

Language Script: Korean (alias For Hangul + Han)

Chinese Japanese

Language Script: Japanese (alias For Han + Hiragana + Katakana)

Hausa Portuguese

Language Script: Latin

Region: Brazil

Polish

Language Script: Latin

Spanish; Castilian

Language Script: Latin

Region: Latin America And The Caribbean

Russian

Language Script: Cyrillic

Swedish

Language Script: Latin

Swahili (macrolanguage)

Language Script: Latin

Thai

Language Script: Thai

Tamil

Language Script: Tamil

Ukrainian

Language Script: Cyrillic

Turkish

Language Script: Latin

Linguality

Linguality type: Multilingual

Size

22 Hours

Classification

national and international political news, as well as economic news mostly from the years 1995-1998

Audio genre: Other

Content

Speech items: Other

Audio FormatsRecording

Recording environment: Office

Recording device type details: Sennheiser 440-6 close-speaking microphone

Source channel: Other

Metadata

Created: 05/12/2005

Metadata Language: French, English (fr, en)

Version

Version: 1.0

ValidationValidated

Mode Details: Most of the GlobalPhone data have been validated in-house

Usage

Foreseen UseNlp Applications

Use specific to NLP: Language Modelling, Speech Synthesis

Actual Use - Nlp Applications

People who looked at this resource also viewed the following: