ALLIES Corpus

View resource name in all available languages

Corpus ALLIES

397-116-696-859-2

ID:

ELRA-S0486

The ALLIES Corpus was produced within the European CHIST-Era project ALLIES. The ALLIES project enabled to carry out a campaign for the evaluation of Broadcast News across time diarization systems using French data. This project is an extension of the previous ESTER, REPERE and ETAPE evaluation campaigns that were carried out for the French language in this field.

This corpus is based on the material that was used for the ESTER, REPERE and ETAPE evaluation packages (see ELRA Catalogue: http://catalogue.elra.info for respective packages). The ALLIES corpus was built as an extension of the previous produced corpora. It contains corrected annotations from the previous evaluation materials as well as new audio data with corresponding transcriptions. Corrections include corrected names of speakers and re-segmentation.

The segmentation tasks consist of segmentation in sound events, speaker tracking and speaker segmentation, detailed as follows:
- For the sound event segmentation, the task consists of tracking the parts which contain music (with or without speech) and the parts which contain speech (with or without music).
- The speaker tracking task consists in detecting the parts of the document that correspond to a given speaker.
- The speaker segmentation consists of segmenting the document in speakers and grouping the parts spoken by the same speaker.

Overall, the ALLIES Corpus contains about 900 hours of news broadcast, including orthographic transcriptions, speaker annotations and segmentation.

View resource description in French

Le Corpus ALLIES a été produit dans le cadre du projet européen CHIST-Era ALLIES. Le projet ALLIES a permis de réaliser une campagne d’évaluation de systèmes de diarisation inter-temporelle sur des enregistrements d’actualités radio-télé-diffusées, en utilisant de données en français. Ce projet est une extension des précédentes campagnes d’évaluations ESTER, REPERE et ETAPE qui avaient été réalisées dans ce domaine pour la langue française.

Le corpus est basé sur le matériel utilisé dans les packages d’évaluation ESTER, REPERE et ETAPE (cf. les packages respectifs dans le Catalogue ELRA: http://catalogue.elra.info). Le Corpus ALLIES a été conçu comme une extension des corpus précédemment produits. Il contient les annotations corrigées des matériels d’évaluation précédents ainsi que de nouvelles données audio et leurs transcriptions correspondantes. Les corrections comprennent les noms des locuteurs corrigés et une re-segmentation des annotations publiées précédemment.

Les tâches de segmentation incluent la segmentation en événements sonores, suivi du locuteur et segmentation du locuteur. Elles sont détaillées comme suit:
- Pour la segmentation en événements sonores, la tâche consiste dans le suivi des parties qui contiennent de la musique (avec ou sans parole) et les parties qui contiennent de la parole (avec ou sans musique).
- La tâche de suivi du locuteur consiste en la détection des parties du document qui correspondent à un locuteur donné.
- La segmentation du locuteur consiste à segmenter le document en différents locuteurs et à grouper les parties parlées du même locuteur.

Au total, le Corpus ALLIES contient environ 900 heures de données radio-télé-diffusées, fournies avec les transcriptions orthographiques, les annotations et la segmentation des locuteurs.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
Licence: Commercial Use - ELRA VAR
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
Licence: Commercial Use - ELRA VAR
05/05/2023