ArabLEX: Database of Arab Names (DAN)

View resource name in all available languages

ArabLEX: Base de données des noms arabes (DAN)

773-974-582-139-4

ID:

ELRA-M0107

This database is part of the ArabLEX set of data which consists of the Database of Arabic General Vocabulary (DAG), Database of Arabic Place Names (DAP), Database of Foreign Names in Arabic (DAF) and Database of Arab Names (DAN) available from ELRA under references, respectively, ELRA-L0131, ELRA-M0105, ELRA-M0106 and ELRA-M0107.

With over 218 million forms based on 100,000 lemmas, this full-form database covers Arab personal names (both given names and surnames) in both Arabic and English and contains a rich set of romanized name variants for each name with a variety of supplementary information such as gender, name type and frequency statistics. This comprehensive lexicon (over 6.4 million variants) contains precise phonemic transcriptions and vocalized Arabic for all inflected and cliticized forms for each name.

This database is provided with three options: 1) proclitics, 2) phonetic information (CARS) and 3) orthographic variants. Subsets excluding some of the three proposed options may be provided upon demand. CARS is an accurate phonemic transcription. Optionally, phonetic transcriptions, IPA and/or SAMPA, can be provided, fine tuned to a customer's specifications.

Quantity and size: 218,215,875 lines / 32,659 MB (31.9 GB)

File format: flat TSV text files

Samples and a specifications document available upon request.

View resource description in French

Cette base de données fait partie de l’ensemble de données ArabLEX qui comprend la base de données du vocabulaire général arabe (DAG), la base de données de noms de lieux arabes (DAP), la base de données de noms étrangers en arabe (DAF) et la base de données de noms arabes (DAN) disponibles dans le catalogue ELRA sous les références respectives ELRA-L0131, ELRA-M0105, ELRA-M0106 et ELRA-M0107.

Avec plus de 218 millions de formes basées sur 100 000 lemmes, cette base de données avec formes entières couvre les noms de personnes arabes (prénoms et noms de familles) à la fois en arabe et en anglais et comprend un ensemble riche de variantes de noms romanisés pour chaque nom avec une variété d’informations complémentaires, telles que le genre, le type de nom et des statistiques de fréquence. Le lexique très complet (plus de 6,4 millions de variantes) contient les transcriptions phonémiques et voyellées de l’arabe pour toutes les formes fléchies et les formes avec clitiques, ce pour chaque nom.

La base de données est fournies avec trois options: 1) proclitiques, 2) information phonétique (CARS) et 3) variantes orthographiques. Des sous-ensembles excluant des options parmi les trois proposées peuvent être fournis sur demande. CARS est une transcription phonémique précis. Egalement et de façon optionnelle, les transcriptions phonétiques en IPA et/ou SAMPA peuvent être fournies, en les affinant selon les spécifications du client.

Quantité et taille: 218,215,875 lignes / 32,659 Mo (31.9 Go)

Format de fichier: fichiers textes simples au format TSV

Des échantillons ainsi qu'un document de spécifications peuvent être fournis à la demande.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
15000.00 € submit
45000.00 € submit
Licence: Commercial Use - ELRA VAR
45000.00 € submit
45000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
24000.00 € submit
71000.00 € submit
Licence: Commercial Use - ELRA VAR
71000.00 € submit
71000.00 € submit

Special offer:

07/10/2019
People who looked at this resource also viewed the following: