aGender

038-476-412-610-4

ID:

ELRA-S0365

aGender contains speech sample recordings over public telephone lines with read and (semi-)spontaneous speech. Native German speakers called a voice portal from their private phone, and read text + answered some open questions. The purpose of the corpus is the automatic detection of gender and/or age (7 mixed classes ranging from 7 - 80 years). The corpus contains the voices of 945 German speakers (approx. minimum of 100 speakers per class), each delivering 18 speech items in up to six different sessions. The time/date of the individual recordings sessions were not controlled, neither the total number of sessions per speaker.

The audio signal was recorded over standard cell phones (GSM standard) and landline connections in 8000 Hz, 8 bit alaw format. Data were then expanded to 8000Hz, 16bit PCM (all 16 bits are valid!).

The selection of speakers is approximately evenly distributed over the seven target classes, with class 1 also being balanced for gender. The read material consists of an altered version of the SpeechDat text material, containing short fixed and free text typical for automated call centers.

A typical utterance is about 2 seconds in length, but there are also some utterances are between 3 and 6 seconds. In total, the corpus consists of 47 hours of speech. Two sets were defined on that data: A training set (81.5%) and a test set (175 speakers, 25 per class, 18.5%), each with disjunctive speaker sets. For the test set no class information is given in this corpus.

Number of speakers in training/development set: 770
Number of speakers in test set: 175
Number of sessions in train/devel: 3625
Number of utterances: 65241
Number of training/development utterances: 53076
Number of test utterances: 12165

For a general information, see also:
Felix Burkhardt, Martin Eckert, Wiebke Johannsen, Joachim Stegmann (2010): A Database of Age and Gender Annotated Telephone Speech. In: Proceedings of the LREC 2010, Malta.

View resource description in French

aGender comprend des enregistrements de parole échantillonnée réalisée via des lignes téléphoniques publiques avec de la parole lue et (semi-)spontanée. Les locuteurs de langue maternelle allemande ont appelé un portail vocal depuis leur ligne téléphonique privée, et ont lu du texte et répondu à différentes questions ouvertes. L’objectif de ce corpus est la detection automatique du genre et/ou de l’âge (7 classes mélangées entre 7 et 80 ans). Le corpus contient les voix de 945 locuteurs allemands (avec approx. 100 locuteurs par classe au minimum), chacun offrant 18 éléments de parole pour jusqu’à six sessions différentes. Le moment/la date des sessions d’enregistrements individuelles n’ont pas été contrôlées, ni le nombre total de sessions par locuteur.

Le signal audio a été enregistré à travers des telephones portables standards (GSM standard) et des connections terrestres à 8000 Hz et au format 8 bit alaw. Les données ont été étendues à 8000Hz, 16bit PCM (l’intégralité des 16 bits est valide!).

La selection des locuteurs est à peu près repartie de façon égale sur les sept classes ciblées, avec la classe 1 étant également équilibrée en genre. Le matériel lu consiste en une version altérée du matériel textuel SpeechDat, qui contient du texte court, fixe et libre, typique pour les centres d’appels automatisés.

Une occurrence typique est d’une longueur d’environ 2 secondes, mais il y a également quelques occurrences entre 3 et 6 secondes. Au total, le corpus comprend 47 heures de parole. Deux ensembles ont été définis pour les données: un ensemble d’apprentissange (81,5%) et un ensemble de test (175 locuteurs, 25 par classe, 18,5%), chacun comprendant des ensembles de locuteurs disjoints. Pour l’ensemble de test, aucune information de classe n’est données dans le corpus.

Nombre de locuteurs dans l’ensemble d’apprentissage/développement: 770
Nombre de locuteurs dans l’ensemble de test: 175
Nombre de sessions dans l’ensemble d’apprentissage/développement: 3625
Nombre d’occurrences: 65241
Nombre d’occurrences pour l’apprentissage/développement: 53076
Nombre d’occurrences pour le test: 12165

Pour des informations générales, voir aussi:
Felix Burkhardt, Martin Eckert, Wiebke Johannsen, Joachim Stegmann (2010): A Database of Age and Gender Annotated Telephone Speech. In: Actes de la conférence LREC 2010, Malte.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
327.00 € submit
8127.00 € submit
Licence: Commercial Use - ELRA VAR
8127.00 € submit
8127.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
455.00 € submit
8255.00 € submit
Licence: Commercial Use - ELRA VAR
8255.00 € submit
8255.00 € submit
17/12/2013 Downloadable
People who looked at this resource also viewed the following: