SecuVoice – ELRA Catalogue

Last view: 2024-06-22

391 Last view: 2024-06-22

Last update: 2017-10-05

1 Last update: 2017-10-05

SecuVoice

ISLRN: 583-080-936-563-9

ID:

ELRA-S0386

SecuVoice is a corpus of single-channel utterances in Spanish containing sequences of isolated digits from zero to nine. These utterances were acquired by using two different devices, i.e. a mid-range smartphone and a high-range one. For both models, the utterances were stored as uncompressed monophonic WAV files with a sampling frequency of 8000 Hz and 16 bits per sample.

This database is especially suitable for research on biometrics and secure applications that integrate both automatic speech recognition (ASR) and speaker recognition/verification.

SecuVoice contains a total of 7,098 utterances (169 speakers x 42 utt./speaker) with 34,476 digits (204 digits/speaker). Utterances are arranged into two different datasets: (i) the ENROLL dataset contains the 1,014 enrollment utterances (169 speakers x 6 enroll. utt./speaker) with 10,140 digits; (ii) the VERIF dataset contains the 6,084 verification utterances (169 speakers x 36 verif. utt./speaker) with 24,336 digits. Each digit from zero to nine is present 3,380 times, except digits three and five unbalanced in the VERIF dataset (2,704 utterances against 2,366 for the other digits) for a total number of 3,718 utterances each.

Along with the WAV files containing the speech utterances, XML annotation files containing detailed information about the speakers and the recorded sequences of digits are provided.

View resource description in French

Le corpus oral SecuVoice comprend des séquences de chiffres isolés de zéro à neuf en espagnol, enregistrées sur un seul canal et avec deux types de téléphones (un smartphone de milieu de gamme et un autre haut de gamme). Dans les deux cas les séquences ont été stockées sous la forme de fichiers WAV monophoniques non compressés, 16 bit 8000 Hz.

Cette base de données a été conçue pour la recherche dans le domaine biométrique et pour des applications sécurisées intégrant la reconnaissance automatique de la parole et l’identification/vérification du locuteur.

SecuVoice comprend 7,098 séquences (169 locuteurs x 42 séquences/locuteur) contenant 34,476 chiffres (204 chiffres/locuteur). Les séquences ont été classées dans deux ensembles de données : (i) ENROLL, qui contient 1,014 séquences d’entraînement (169 locuteurs x 6 séquences enroll./locuteur) et 10,140 chiffres ; (ii) VERIF, qui contient 6,084 séquences de vérification (169 locuteurs x 36 séquences vérif./locuteur) et 24,336 chiffres. Chaque chiffre de zéro à neuf est présent 3,380 fois, à l’exception des chiffres trois et cinq non équilibrés dans l’ensemble de données VERIF (2,704 occurences contre 2,366 pour les autres chiffres) pour un nombre total de 3,718 occurrences chacun.

Des fichiers d’annotation XML contenant des informations détaillées sur les locuteurs et sur les séquences sont fournis avec les fichiers WAV.

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	300.00 €	600.00 €
Licence: Commercial Use - ELRA VAR	600.00 €	600.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	600.00 €	1200.00 €
Licence: Commercial Use - ELRA VAR	1200.00 €	1200.00 €

DistributionAvailability start date 03/11/2016 Contact Person

Valérie Mapelli

audio

Monolingual audio corpusLanguages

Spanish; Castilian

Variety: Castilian (Type: Dialect) (2 Gb)

Linguality

Linguality type: Monolingual

Size

624 Mb

Size

speaker was recorded over three sessions, lasting around ten minutes each (total of ca. 84 Hours

Classification

Audio genre: Other

Content

Speech items: Isolated Digits

Audio FormatsRecording

Recording device type details: These utterances were acquired by using two different devices, i.e. a mid-range smartphone and a high-range one

Source channel: Telephone

Resource Creation

Funding Project

INNPACTO project "SecuVoice: Voice Biometrics to Guarantee the Security of Enterprise Applications" (IPT-2012- 0082-390000)

Funding Type: Other

Metadata

Created: 05/12/2005

Metadata Language: French, English (fr, en)

Version

Version: 1.0

Last Updated: 11/03/2016

Usage

Actual Use - Nlp Applications

Use specific to NLP: Speech Recognition