SmartWeb Handheld Corpus (SHC)

View resource name in all available languages

Corpus SHC (SmartWeb Handheld Corpus)

335-792-173-200-7

ID:

ELRA-S0278

The SMARTWEB UMTS data collection was created within the publicly funded German SmartWeb project in the years 2004-2006. It comprises a collection of user queries to a naturally spoken Web interface with the main focus on the soccer world series in 2006. The recordings include field recordings using a hand-held UMTS device (one person, SmartWeb Handheld Corpus SHC, ref. ELRA-S0278), field recordings with video capture of the primary speaker and a secondary speaker (SmartWeb Video Corpus SVC, ref. ELRA-S0279), as well as mobile recordings performed on a BMW motorbike (one speaker, SmartWeb Motorbike Corpus SMC, ref. ELRA-S0280).

This corpus corresponds to the hand-held UMTS device (SmartWeb Handheld Corpus) and contains recordings spoken by 156 speakers in a human-machine query situation. Users were asked to solve several tasks with a spoken query system to the WWW using a smart phone as portable device in natural environments (office, hall, restaurant, street). Recorded channels are the Bluetooth headset over UMTS (telephone quality), the Bluetooth headset and an additional collar microphone in high quality.

The corpus contains:
- Total number of recorded queries: 10,966
- Total duration segmented speech: 1835 minutes
- Formats: WAV 44,1kHz, 16 bit, ALAW 8kHz 8bit, Verbmobil transliteration, BAS Partitur Format (BPF)
- Segmentation: automatic segmentation into queries by the recording server
- Distribution: 15 DVD-R

See also ELRA-S0279 and ELRA-S0280.

View resource description in French

La collection de données SMARTWEB UMTS a été produite dans le cadre du projet SmartWeb financé par le gouvernement allemand de 2004 à 2006. Il comprend une collection de questions utilisateurs posées à une interface web de parole naturelle et avec comme thème principal la coupe du monde de football 2006. La collection comprend des enregistrements de champs via un appareil portable UMTS (une personne, corpus SHC-SmartWeb Handheld, réf. ELRA-S0278), des enregistrements de champs avec une capture vidéo d’un locuteur premier et d’un locuteur secondaire (corpus SVC-SmartWeb Video, réf. ELRA-S0279), ainsi que des enregistrements via des téléphones portables réalisés sur une moto BMW (un locuteur, corpus SMC-SmartWeb Motorbike, réf. ELRA-S0280).

Ce corpus correspond aux données d’appareil portable UMTS (SmartWeb Handheld) et contient les enregistrements de parole de 156 locuteurs dans une situation de requête personne-machine. On a demandé aux utilisateurs de résoudre plusieurs tâches grâce à un système d’interrogation vocale sur internet en utilisant un smartphone comme appareil portable dans des environnements naturels (bureau, hall d’entrée, restaurant, rue). Les canaux d’enregistrements sont un micro-casque Bluetooth via UMTS (qualité téléphone), un micro-casque Bluetooth et un microphone collier additionnel en haute qualité.

Le corpus comprend :
- Nombre total de requêtes enregistrées : 10966
- Durée total de parole segmentée : 1835 minutes
- Formats : WAV 44,1kHz, 16 bit, ALAW 8kHz 8bit, transcription Verbmobil, format de partition BAS (BPF)
- Segmentation: segmentation automatique en requêtes par le serveur d’enregistrement
- Distribution: 15 DVD-R

Voir aussi ELRA-S0279 et ELRA-S0280.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1912.50 € submit
2912.50 € submit
Licence: Commercial Use - ELRA VAR
2912.50 € submit
2912.50 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
3825.00 € submit
4825.00 € submit
Licence: Commercial Use - ELRA VAR
4825.00 € submit
4825.00 € submit
11/07/2008
People who looked at this resource also viewed the following:
Resources from the same project