"Le Monde Diplomatique" Arabic tagged corpus

View resource name in all available languages

Corpus étiqueté du journal "Le Monde Diplomatique" en arabe

124-139-628-259-2

ID:

ELRA-W0049

This corpus contains 102,960 vowelised, lemmatised and tagged words (58 texts from Le Monde Diplomatique Arabic, see also ELRA-W0036-04).

To each text are associated 3 files :
- raw text in Arabic,
- vowelized text in Arabic,
- one XML file containing the morphological annotation of the text.

Each text word associates a certain number of information, such as word size, rank of the word in the text, paragraph number where the word was found, etc. Each word associates a node in the XML file. Each node contains the following positional features of the word in the text:
- Paragraph number in the text, i.e. paragraph where the word can be found,
- Sentence number in the paragraph,
- Sentence number in the text,
- Rank of the word in the text,
- Rank of the first character of the word in the text,
- Word size.

Information about word annotation are added as « sub-nodes »:
- Word of non vowelised text,
- Vowelised word,
- Word lemma,
- Grammatical category of the word.

View resource description in French

Ce corpus contient 102 960 mots (58 textes du monde diplomatique, voir aussi ELRA-W0036-04) voyellés, lemmatisés et étiquetés.

A chaque texte sont associés 3 fichiers :
- le texte arabe brut,
- le texte arabe voyellé,
- le fichier contenant l’annotation morphologique du texte en XML.

A chaque mot du texte sont associées un certain nombre d’informations telles que la taille du mot, le rang du mot dans le texte, le numéro du paragraphe dont est issu le mot, etc. A chaque mot est associé un nœud dans le fichier XML. Chaque nœud contient les « attributs » positionnels du mot dans le texte:
- le numéro du paragraphe où se trouve le mot dans le texte,
- le numéro de la phrase dans le paragraphe,
- le numéro de la phrase dans le texte,
- le rang du mot dans le texte,
- le rang du premier caractère du mot dans le texte.
- la taille du mot.

Les informations concernant l’annotation du mot sont les sous-nœuds suivants:
- le mot du texte non voyellé,
- le mot voyellé,
- le lemme du mot,
- la catégorie grammaticale du mot.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
185.00 € submit
975.00 € submit
Licence: Commercial Use - ELRA VAR
975.00 € submit
975.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
400.00 € submit
2000.00 € submit
Licence: Commercial Use - ELRA VAR
2000.00 € submit
2000.00 € submit
31/03/2009
People who looked at this resource also viewed the following:
Resources from the same project