Wojood - A corpus for nested Arabic Named Entity Recognition

View resource name in all available languages

Wojood – Un corpus pour la reconnaissance d’entités nommées imbriquées

688-718-284-176-0

ID:

ELRA-W0325

Wojood consists of about 550,000 tokens (Modern Standard Arabic and dialect) that are manually annotated with 21 entity types (person, group of people, occupation, organization, geopolitical entity, location, facility, event, date, time, language, website, law, product, cardinal number, ordinal number, percent, quantity, unit, money, currency). It covers multiple domains (Media, History, Culture, Health, Finance, ICT, Law, Elections, Politics, Migration, Terrorism, social media) and was annotated with nested entities. The corpus contains about 75K entities and 22.5% of which are nested. The corpus was annotated using the IOB2 tagging scheme and is available in CSV format.

View resource description in French

Wojood comprend environ 550 000 tokens (arabe moderne standard et dialecte) annotés manuellement avec 21 types d’entités (personne, groupe de personnes, activité, organisation, entité géopolitique, lieu, équipement, événement, date, heure, langue, site web, droit, produit, nombre cardinal, nombre ordinal, pourcentage, quantité, unité, argent, devise). Il couvre des domaines divers (médias, histoire, culture, santé, finance, techniques d'information et de communication, droit, élections, politique, migration, terrorisme, medias sociaux) et a été annoté en entités imbriquées. Le corpus contient environ 75 000 entités dont 22,5% sont imbriquées. Le corpus a été annoté en suivant le schéma d’étiquetage IOB2 et est disponible au format CSV.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
8000.00 € submit
Licence: Commercial Use - ELRA VAR
8000.00 € submit
8000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
10000.00 € submit
Licence: Commercial Use - ELRA VAR
10000.00 € submit
10000.00 € submit
27/09/2022
People who looked at this resource also viewed the following: