ArabLEX: Database of Arabic Place Names (DAP)

View resource name in all available languages

ArabLEX: Base de données des noms de lieux arabes (DAP)

161-842-321-771-2

ID:

ELRA-M0105

This database is part of the ArabLEX set of data which consists of the Database of Arabic General Vocabulary (DAG), Database of Arabic Place Names (DAP), Database of Foreign Names in Arabic (DAF) and Database of Arab Names (DAN) available from ELRA under references, respectively, ELRA-L0131, ELRA-M0105, ELRA-M0106 and ELRA-M0107.

This full-form Arabic-English place name database of over 21,000 lemmas and nearly 6.5 million forms provides worldwide coverage of common place names, given in standard MSA orthography, and includes all inflected and cliticized forms for each place name. In addition, precise phonemic transcriptions and full vowel diacritics are designed to enhance Arabic speech technology. Orthographic variants are also extensively covered.

This database is provided with three options: 1) proclitics, 2) phonetic information (CARS) and 3) orthographic variants. Subsets excluding some of the three proposed options may be provided upon demand. CARS is an accurate phonemic transcription. Optionally, phonetic transcriptions, IPA and/or SAMPA, can be provided, fine tuned to a customer's specifications.

Quantity and size: 6,455,201 lines / 812 MB

File format: flat TSV text files

Samples and a specifications document available upon request.

View resource description in French

Cette base de données fait partie de l’ensemble de données ArabLEX qui comprend la base de données du vocabulaire général arabe (DAG), la base de données de noms de lieux arabes (DAP), la base de données de noms étrangers en arabe (DAF) et la base de données de noms arabes (DAN) disponibles dans le catalogue ELRA sous les références respectives ELRA-L0131, ELRA-M0105, ELRA-M0106 et ELRA-M0107.

Cette base de données arabe-anglais avec les formes entières de plus de 21 000 lemmes et près de 6,5 millions de formes offre une couverture internationale des noms de lieux communs, fournis sous la forme orthographique MSA standard, et comprends toutes les formes fléchies et les formes avec clitiques pour chaque nom de lieu. De plus, les transcriptions phonémiques précises et les diacritiques entièrement voyellées sont spécialement conçues pour améliorer les technologies vocales en arabe. Les variantes orthographiques sont également largement couvertes.

La base de données est fournies avec trois options: 1) proclitiques, 2) information phonétique (CARS) et 3) variantes orthographiques. Des sous-ensembles excluant des options parmi les trois proposées peuvent être fournis sur demande. CARS est une transcription phonémique précis. Egalement et de façon optionnelle, les transcriptions phonétiques en IPA et/ou SAMPA peuvent être fournies, en les affinant selon les spécifications du client.

Quantité et taille: 6,455,201 lignes / 812 Mo

Format de fichier: fichiers textes simples au format TSV

Des échantillons ainsi qu'un document de spécifications peuvent être fournis à la demande.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
5000.00 € submit
15000.00 € submit
Licence: Commercial Use - ELRA VAR
15000.00 € submit
15000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
7000.00 € submit
22000.00 € submit
Licence: Commercial Use - ELRA VAR
22000.00 € submit
22000.00 € submit

Special offer:

07/10/2019
People who looked at this resource also viewed the following: