EnToFrNE - a Parallel English-French Lexicon of Named Entities

View resource name in all available languages

EnToFrNE - lexique d’entités nommées parallèle anglais-français

ISLRN: 233-270-965-120-8

ID:

ELRA-M0052

In any text document, there are particular terms that represent specific entities that are more informative and have a unique context. These entities are known as named entities, which more specifically refer to terms that represent real-world objects like people, places, organizations, and so on. They are often denoted by proper names and can be abstract or have a physical existence. Examples of named entities include: United States of America, Paris, Google, Mercedes Benz, Microsoft Windows, or anything else that can be named.

Certain natural terms like biological species and substances, which are sometimes considered named entities, are not included in the lexicon.

The lexicon consists of 1,167,263 parallel named entities in English and French.

Classification
Named entities in the lexicon are tagged. The tags used are: PERSON, ORGANIZATION, LOCATION, PRODUCT and MISC. Each named entity belongs to one of these classes. The classes comprise:
PERSON: humans, gods, saints, fictional characters;
ORGANIZATION: political organizations, companies, schools, rock bands, sport teams;
LOCATION: geographical terms, fictional places, cosmic terms;
PRODUCT: industrial products, software products, weapons, art works, documents, concepts, standards, laws, formats, anthems, algorithms, journals, coats of arms, platforms, websites;
MISC: events, languages, peoples, tribes, alliances, orders, scientific discoveries, theories, titles, currencies, holidays, dynasties, positions, projects, historical periods, battles, competitions, alliances, deceases, breeds, programs, set of locations, awards, musical genres, missions, artistic directions, set of organizations, networks.

There are 1,167,263 entries in the lexicon. At least one tag is assigned to each one of them. The distribution of tags is as follows:

PERSON: 387,676
ORGANIZATION: 107,865
LOCATION: 309,533
PRODUCT: 149,137
MISC: 247,655

The total number of tags, 1,201,866, is slightly higher than the number of entries, due to the fact that some named entities may belong to more classes. For example, Tom Sawyer is tagged as both PRODUCT (the title of the novel) and PERSON (the character from the novel).

Evaluation
To evaluate the tagging, two common metrics in information retrieval have been used: precision and recall. Precision means the percentage of tags which are correct. On the other hand, recall refers to the percentage of total relevant tags correctly classified by the algorithm.
An alternative to having two measures is the F-measure which combines precision and recall into a single performance measure. This metric is known as F1-score, which is simply the harmonic mean of precision and recall.

In order to evaluate the tagging, a random sample containing 1,000 entries has been extracted from the lexicon. The entries from the sample have been tagged manually and then compared to the tagging performed by the algorithm. The precision of tagging is between 0.94 for ORGANIZATION and 0.99 for PERSON. The recall is slightly lower, from 0.83 for PRODUCT and MISC to 0.97 for PERSON. The higher values of precision show that the tagging algorithm was adjusted to tag the named entities correctly, rather than to extract more named entities for the lexicon.

Formats
The lexicon comes in two formats: csv and xml.
The first row in the csv file is a title row and tab is used as a field separator. The columns’ titles are: en, fr, PERSON, ORGANIZATION, LOCATION, PRODUCT and MISC. Next rows contain the data: English name, French name and five digits, 0’s or 1’s, depending on which class the named entity belongs to.

The structure of the xml file is similar. The columns’ names from the csv file are now names of elements.

View resource description in French

Dans tout document texte, il existe des termes particuliers qui représentent des entités spécifiques qui sont plus informatives et ont un contexte unique. Ces entités sont connues sous le nom d’entités nommées, qui se rapportent plus spécifiquement aux termes qui représentent des objets du monde réels tels que les personnes, les lieux, les organisations, etc. Elles sont souvent signifiées par des noms propres et peuvent être abstraites ou avoir une existence physique. Quelques xemples d’entités nommées: Etats-Unis d’Amérique, Paris, Google, Mercedes Benz, Microsoft Windows, ou toute autre entité pouvant être "nommée".

Certains termes liés à la nature comme les espèces biologiques et les substances, qui sont parfois considérés comme des entités nommées, ne sont pas inclus dans ce lexique.

Le lexique consiste en 1 167 263 entités nommées parallèles en anglais et en français.

Classification
Les étiquettes utilisées pour les entités nommées dans ce lexique sont les suivantes: PERSON, ORGANIZATION, LOCATION, PRODUCT et MISC. Chaque entité nommée appartient à l’une de ces classes. Les classes comprennent:
Les étiquettes utilisées pour les entités nommées sont les suivantes: ORGANIZATION, LOCATION, PERSON, PRODUCT et MISC. Chaque entité nommée appartient à l’une de ces classes. Les classes comprennent:
PERSON: humains, dieux, saints, personnages de fiction
ORGANIZATION: organisations politiques, sociétés, écoles, groupes de rock, équipes de sport
LOCATION: termes géographiques, lieu de fiction, termes cosmiques
PRODUCT: produits industriels, produits logiciels, armes, œuvres d’art, documents, concepts, standards, formats, hymnes, algorithmes, journaux, blasons, plateformes, sites web
MISC: événements, langues, peuples, tribus, alliances, ordres, découvertes scientifiques, théories, titres, devises, fêtes, dynasties, positions, projets, périodes historiques, compétitions, décès, espèces, programmes, ensemble de lieux, récompenses, genres musicaux, missions, directions artistiques, ensemble d’organisations, réseaux.

Le lexique comprend 1 167 263. Au moins une étiquette est assignée à chacune d’entre elles. Les classes sont réparties comme suit:

PERSON: 387 676 entrées
ORGANIZATION: 107 865 entrées
LOCATION: 309 533 entrées
PRODUCT: 149 137 entrées
MISC: 247 655 entrées

Le nombre total d’étiquettes de 1 201 866 est légèrement plus élevé que le nombre d’entrées du fait que certaines entités nommées peuvent appartenir à plusieurs classes. Par exemple, Tom Sawyer est étiqueté à la fois comme PRODUCT (le titre d’un roman) et PERSON (le personnage du roman).

Evaluation
Afin d’évaluer l’étiquetage, deux métriques communes en recherche d’information ont été utilisées: précision et rappel. La précision signifie le pourcentage d’étiquettes correctes, tandis que le rappel fait référence au pourcentage du total d’étiquettes pertinentes classifiées correctement par l’algorithme.
Une alternative à ces deux mesures est la F-mesure qui associe précision et rappel dans une seule mesure de résultat. Cette métrique est connue sous le nom de F1-score, qui correspond simplement à la moyenne harmonique entre la précision et le rappel.

Afin d’évaluer l’étiquetage, un échantillon aléatoire contenant 1000 entrées a été extrait du lexique. Les entrées de cet échantillon ont été étiquetées manuellement, puis comparées à l’étiquetage réalisé par l’algorithme. La précision de l’étiquetage est entre 0.94 pour la classe ORGANIZATION et 0.99 pour la classe PERSON. Le rappel est légèrement inférieur, entre 0.83 pour la classe PRODUCT et MISC et 0.97 pour la classe PERSON. Les valeurs plus élevées de la précision montrent que l’algorithme d’étiquetage a été ajusté afin d’étiqueter les entités nommées correctement, plutôt que d’extraire plus d’entitées nommées pour le lexique.

Formats
Le lexique est fourni dans deux formats: csv et xml.
La première colonne dans le fichier csv correspond au titre et une tabulation est utilisée comme séparateur de champ. Les titres des colonnes sont "en", "fr", "PERSON", "ORGANIZATION", "LOCATION", "PRODUCT" et "MISC". Les lignes suivantes contiennent les données: le nom en anglais, le nom en français et les chiffres 0 ou 1 pour chaque colonne de classe, selon si l’entité nommée appartient ou nom à cette classe.

La structure du fichier xml est similaire. Les noms de colonnes du fichier csv correspondent aux noms d’éléments.

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	600.00 €	2000.00 €
Licence: Commercial Use - ELRA VAR	2000.00 €	2000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	1200.00 €	4000.00 €
Licence: Commercial Use - ELRA VAR	4000.00 €	4000.00 €