SPK

604-522-044-889-5

ID:

ELRA-S0049

SPK is an Italian speech database of isolated and connected digits. It was designed and collected at the Istituto per la Ricerca Scientifica e Tecnologica (ITC/IRST), Trento, Italy. SPK was conceived for speaker recognition and verification purposes.With this CD-ROM, speech material corresponding to isolated digits acquired from 100 speakers (30 females and 70 males, from 23 to 50 years old) is released. Most of the speakers are from the North-East of Italy.
Speech material was collected from each speaker during five recording sessions scheduled on different days. During a recording session four repetitions of the ten Italian digits were acquired from a speaker. A total of 20,000 speech waveform files form the corpus.
Recordings were performed in a quiet room. Speech was acquired at 48 kHz, with 16 bit accuracy, by means of a Digital Audio Tape-Recorder Sony TCD-D10PRO and a super-cardioid microphone Sennheiser MKH 416-T. Then, digital recordings were downsampled to 16 kHz. Speech waveform files in the corpus were stored in the NIST-SPHERE format by using the SPHERE library, version 2.6a.

View resource description in French

SPK est une base de données de l'italien de chiffres isolés et connectés. Elle a été réalisée par l'Istituto per la Ricerca Scientifica e Tecnologica (ITC/IRST), Trento, Italie. SPK a été spécialement conçue pour des travaux de reconnaissance et de vérification du locuteur.

Le CD-ROM contient le matériel oral correspondant aux chiffres isolés enregistrés par 100 locuteurs (30 femmes et 70 hommes, ayant de 23 à 50 ans). La majorité des locuteurs provient du nord-est de l'Italie. Les données ont été collectées pour chaque locuteur pendant 5 sessions d'enregistrements planifiés sur plusieurs jours différents. Une session d'enregistrement comprend 4 répétitions par chaque locuteur, des dix chiffres italiens. Ce corpus est formé d'un total de 20 000 fichiers.

Les enregistrements ont été réalisés dans une pièce calme. La parole a été enregistrée à 48 kHz et codée avec 16 bits, au moyen d'un enregistreur numérique audio Sony TCD-D10PRO et un microphone super-cardioïde Sennheiser MKH 416-T. Enfin, les enregistrements numériques ont été échantillonnés à 16 kHz. Les fichiers "signal" du corpus ont été stockés sous un format NIST-SPHERE.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
400.00 € submit
800.00 € submit
Licence: Commercial Use - ELRA VAR
800.00 € submit
800.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
800.00 € submit
1600.00 € submit
Licence: Commercial Use - ELRA VAR
1600.00 € submit
1600.00 € submit
20/03/1998
People who looked at this resource also viewed the following: