Persian Lexicon

View resource name in all available languages

Lexique persan

547-614-436-004-7

ID:

ELRA-L0087

This is a Persian (Farsi) lexicon of more than 40,000 entries of non-inflected forms of words. Each word is transliterated based on the proposed framework from MBROLA (Text-To-Speech synthesizer). The database includes a large variety of descriptors for each entry (plural, homograph, ...).

This lexicon has been made out from a corpus of newspaper publications collected during a period of six months from the Shargh Newspaper, a publication containing articles from diverse topics: art, culture, policy, social, sport, etc. Due to its coverage, this lexicon can be in particular interesting for Persian TTS systems, as the pronunciation of Persian words cannot be derived directly from their transcription due to the omission of short vowels in Persian writing systems.

The number of records is distributed as follows:
Adjectives: 11,955
Adverbs: 2,047
Classifiers: 164
Conjunctions: 129
Indexes: 85
Names: 36,651
Numbers: 88
Verb-Past Stem: 455
Verb-Present Stem: 435
Prepositions: 223
Pronouns: 141
Semi-Sentence: 352

The lexicon is provided in a MS Access database.

View resource description in French

Ce lexique persan (farsi) contient plus de 40 000 entrées de formes de mots non fléchies. Chaque mot est translittéré suivant les spécifications proposées dans le cadre du projet MBROLA (synthétiseur de texte vers la parole). La base de données inclut une large variété de descripteurs pour chaque entrée (pluriel, homographe, etc.).

Le lexique a été réalisé à partir d’un corpus d’articles de journaux collectés sur une période de six mois extraits du journal Shargh. Ce journal contient des publications sur divers thèmes: art, culture, politique, social, sport, etc. De par sa large couverture, ce lexique est notamment intéressant pour les systèmes de traitement de texte vers la parole pour le persan, étant donné que la prononciation des mots en persan ne peuvent être dérivés directement depuis leur transcription à cause de l’omission des voyelles courtes dans les systèmes d’écriture persans.

Le nombre d’enregistrements est réparti comme suit:
Adjectifs: 11,955
Adverbes: 2,047
Classificateurs: 164
Conjonctions: 129
Index: 85
Noms: 36,651
Nombres: 88
Racine verbale au passé: 455
Racine verbale au présent: 435
Prépositions: 223
Pronoms: 141
Demi-phrases: 352

Le lexique est fourni dans une base de données MS Access.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
500.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
5000.00 € submit
5000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
700.00 € submit
7000.00 € submit
Licence: Commercial Use - ELRA VAR
7000.00 € submit
7000.00 € submit
27/09/2010
People who looked at this resource also viewed the following: