GlobalPhone Bulgarian Pronunciation Dictionary 260k entries (extended version)

View resource name in all available languages

Dictionnaire de prononciation GlobalPhone bulgare 260k entrées (version étendue)

Bulgarian-Dict260k

799-402-906-876-5

ID:

ELRA-S0388

This extended version of the Bulgarian Pronunciation Dictionary called Bulgarian-Dict260k contains pronunciations of more than 260,000 word forms. The dictionary matches in phone set and format the original GlobalPhone Bulgarian Pronunciation Dictionary (see ELRA-S0351) of 20,000 word forms. Bulgarian-Dict260k was built based on the extension of the Bulgarian GlobalPhone text database to improve language modeling and to reduce the high Out-Of-Vocabulary rate resulting from the rich morphology of the Bulgarian language. For this purpose, roughly 9 Million word tokens were collected from the internet sources of national, international, and economic news available from the online newspapers "Banker" (http://www.banker.bg/), "Kesh" (http://www.cash.bg), and “Sega" (http://www.segabg.com/). After text cleaning and normalization, all word forms were extracted. Pronunciations were created in an automatic process using hand-crafted grapheme-to-phoneme rules. The generated pronunciations were manually cross-checked by native speakers, correcting potential errors of the automatic generation.

View resource description in French

Cette version étendue du dictionnaire de prononciation bulgare, nommée “Bulgarian-Dict260k” comprend la prononciation de plus de 260,000 formes de mots. Le dictionnaire est conforme à l’ensemble de phones et au format du Dictionnaire de prononciation GlobalPhone bulgare original (voir ELRA-S0351) de 20,000 formes de mots. Bulgarian-Dict260k a été conçu sur la base d’une extension de la base de données textuelle de GlobalPhone bulgare afin d’améliorer la modélisation de la langue et de réduire le taux élevé “hors-vocabulaire” dû à la riche morphologie de la langue bulgare. Dans cet objectif, environ 9 millions de tokens ont été collectés à partir de sources internet d’actualités nationales, internationales et économiques des journaux en ligne "Banker" (http://www.banker.bg/), "Kesh" (http://www.cash.bg), et “Sega" (http://www.segabg.com/). Toutes les formes de mots ont été extraites après le nettoyage et la normalisation du texte. La prononciation a été créée selon un processus automatique au moyen de règles graphèmes-phonèmes manuscrites. La prononciation générée a été vérifiée par des locuteurs natifs, qui ont corrigé les erreurs potentielles provenant de la génération automatique.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1800.00 € submit
9000.00 € submit
Licence: Commercial Use - ELRA VAR
9000.00 € submit
9000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2100.00 € submit
10800.00 € submit
Licence: Commercial Use - ELRA VAR
10800.00 € submit
10800.00 € submit
06/04/2017 Downloadable
People who looked at this resource also viewed the following: