Speechtera Pronunciation Dictionary
Dictionnaire de Prononciation SpeechTera
The SpeechTera Pronunciation Dictionary is a machine-readable pronunciation dictionary for Brazilian Portuguese and comprises 737,347 entries. Its entries were primarily designed for Speech Technologies, such as Automatic Speech Recognition Systems and Speech Synthetizers. However, it may be used by linguists, speech therapists, lexicographers, students of Brazilian Portuguese as a second language, and whoever is interested in the sound structure of Brazilian Portuguese.
Its phonetic transcription is based on 13 linguistics varieties spoken in Brazil : São Paulo (capital city), countryside of São Paulo State, Rio de Janeiro (RJ), Brasilia (Federal District), Belo Horizonte (MG), Curitiba (PR), Manaus (AM), Porto Alegre (RS), Salvador (BA), Goiâna (GO), Belém (PA), Vitoria (ES) and Cuiabà (MT). The transcription was generated using in-house grapheme-to-phoneme converter and then, its output was manually revised by Brazilian linguists.
The SpeechTera Pronunciation Dictionary contains the pronunciation of the frequent word forms found in the transcription data of the SpeechTera's speech and text database (literary, newspaper, movies, miscellaneous). Each one of the thirteen dialects comprises 56,719 entries, including:
- 44,396 entries including common nouns, adjectives, verbs, adverbs, articles, pronouns, numbers, prepositions, conjunctions;
- 8,074 proper nouns (including person names, family names, cities, streets, companies and brand names);
- 1,400 acronyms
- 1,994 heterophonic homographs
- 26 unstressed words (clitics)
- 92 prefixes constituted by the middle vowels "e" and "o"
- 40 common nouns with metaphonic plurals
- 698 foreign words frequently used in Brazil
The phone set for each one of the 13 varieties of Brazilian Portuguese were derived individually from the literature, following best practices for automatic speech processing. Detailed information about the phone set used can be found in the handbook for corpora annotation, written by SpeechTera's experts team, provided with the dictionary. It has mappings from words to their pronunciations in the ARPAbet phoneme set, but a mapping between the ARPAbet, the International Phonetic Alphabet (IPA) and the Speech Assessment Methods Phonetic Alphabet (SAMPA) is also provided for the purpose of understanding the phonetic symbol used in the transcriptions. Syllable carries a lexical stress marker, for example, "abacaxi aa bb aa kk aa1 sh iy".
The dictionary was created semi-automatically using in-house grapheme-to-phoneme converter. In the first step, initial pronunciations of all word forms appearing in the SpeechTera Pronunciation Dictionary transcriptions. After the automatic creation process, the dictionary was manually cross-checked by linguists' native speakers, correcting potential errors of the automatic pronunciation generation process.
Le Dictionnaire de Prononciation SpeechTera est un dictionnaire de prononciation informatisé pour le portugais brésilien et comportant 737 347 entrées.
Ces entrées ont été principalement définies pour des utilisations dans les technologies de la parole telles que les systèmes de reconnaissance automatique de la langue et les systèmes de synthèse. En outre, il peut être utilisé par des linguistes, des thérapeutes du langage, des lexicographes, des étudiants du portugais brésilien comme deuxième langue ainsi que toute personne intéressée par la structure sonore du portugais brésilien.
La transcription phonétique est fondée sur 13 variétés linguistiques parlées au Brésil : São Paulo (Capitale), la zone rurale de l'état de São Paulo, Rio de Janeiro (RJ), Brasilia (District Fédéral), Belo Horizonte (MG), Curitiba (PR), Manaus (AM), Porto Alegre (RS), Salvador (BA), Goiâna (GO), Belém (PA), Vitoria (ES) et Cuiabà (MT). La transcription a été générée en utilisant un convertisseur graphème-phonème maison, puis le résultat a été révisé manuellement par des linguistes brésiliens.
Le Dictionnaire de Prononciation SpeechTera contient la prononciation des formes de mots fréquentes trouvées dans les données de transcription de la base de données textuelle et verbale de SpeechTera (littérature, presse, films et divers). Chacun des treize dialectes comprend 56 719 entrées, dont:
- 44 396 entrées comprenant des noms communs, adjectifs, verbes, adverbes, articles, pronoms, conjonctions;
- 8 074 noms propres (comprenant les prénoms, noms de famille, ville, rues, noms de société, marques);
- 1 400 acronymes
- 1994 homographes hétérophoniques
- 26 mots non accentués (clitiques)
- 92 préfixes constitués par les voyelles médianes "e" et "o"
- 40 noms communs avec des pluriels métaphoniques
- 698 mots étrangers fréquemment utilisés au Brésil
L’ensemble de phones pour chacune des treize variétés de portugais brésiliens a été dérivé individuellement de la littérature en suivant les meilleures pratiques utilisées pour le traitement automatique de la langue. Des informations détaillées sur l’ensemble de phones utilisé peuvent être trouvées dans le manuel d'annotation du corpus, réalisé par les experts de l'équipe de SpeechTera et fourni avec le dictionnaire. Il contient la correspondance des mots à leur prononciation dans la base de phonèmes ARPAbet, mais une correspondance entre la base de phonèmes ARBAbet, l'Alphabet Phonétique International (IPA) et l'Alphabet SAMPA est également fournie pour permettre la compréhension des symboles phonétiques utilisés dans les transcriptions. Les syllabes peuvent parfois comporter un symbole lexical d'accentuation par exemple "abacaxi aa bb aa kk aa1 sh iy".
Le dictionnaire a été créé de manière semi-automatique en utilisant un convertisseur graphème-phonème interne. La première étape a été d'établir les prononciations initiales de toutes les formes verbales apparaissant dans les transcriptions du Dictionnaire de prononciation SpeechTera. Après le processus de création automatique, le dictionnaire a été vérifié manuellement par des linguistes de langue maternelle afin de corriger les erreurs du processus de génération automatique de prononciation.
