Wojood - A corpus for nested Arabic Named Entity Recognition
View resource name in all available languages
Wojood – Un corpus pour la reconnaissance d’entités nommées imbriquées
ID:
ELRA-W0325
Wojood consists of about 550,000 tokens (Modern Standard Arabic and dialect) that are manually annotated with 21 entity types (person, group of people, occupation, organization, geopolitical entity, location, facility, event, date, time, language, website, law, product, cardinal number, ordinal number, percent, quantity, unit, money, currency). It covers multiple domains (Media, History, Culture, Health, Finance, ICT, Law, Elections, Politics, Migration, Terrorism, social media) and was annotated with nested entities. The corpus contains about 75K entities and 22.5% of which are nested. The corpus was annotated using the IOB2 tagging scheme and is available in CSV format.
View resource description in
French
Wojood comprend environ 550 000 tokens (arabe moderne standard et dialecte) annotés manuellement avec 21 types d’entités (personne, groupe de personnes, activité, organisation, entité géopolitique, lieu, équipement, événement, date, heure, langue, site web, droit, produit, nombre cardinal, nombre ordinal, pourcentage, quantité, unité, argent, devise). Il couvre des domaines divers (médias, histoire, culture, santé, finance, techniques d'information et de communication, droit, élections, politique, migration, terrorisme, medias sociaux) et a été annoté en entités imbriquées. Le corpus contient environ 75 000 entités dont 22,5% sont imbriquées. Le corpus a été annoté en suivant le schéma d’étiquetage IOB2 et est disponible au format CSV.
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
0.00 €
|
3000.00 €
|
Licence: Commercial Use - ELRA VAR |
3000.00 €
|
3000.00 €
|
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
0.00 €
|
3750.00 €
|
Licence: Commercial Use - ELRA VAR |
3750.00 €
|
3750.00 €
|