Chinese Kids Speech database (Upper Grade) – ELRA Catalogue

Last view: 2025-08-15

88 Last view: 2025-08-15

Last update: 2025-07-22

2 Last update: 2025-07-22

Chinese Kids Speech database (Upper Grade)

View resource name in all available languages

Base de données audio d'enfants chinois (niveau cours moyen et collège)

ISLRN: 993-024-988-227-0

ID:

ELRA-S0497

The Chinese Kids Speech database (Upper Grade) contains the total recordings of 161 Chinese Kids speakers (71 males and 90 females), from 10 to 12 years’ old recorded in quiet rooms using smartphone. This database may be combined with the Chinese Kids Speech database (Lower Grade) also available in the ELRA Catalogue under reference ELRA-S0495.

Number of speakers, utterances and duration, age are as follows :

Number of speakers (Male/Female): 161 (71/90)
Number of utterances (average): 234 utt/spkr
Total number of utterances: 37,806
Age: from 10 to 12
Total number of hours: 72

1,859 sentences were used. Recordings were made through smartphones and audio data stored in .wav files as sequences of 16KHz Mono, 16 bits, Linear PCM.

Database
・Audio data: WAV format, 16KHz, 16bit, mono (recorded with smartphone)
・Transcription data: TSV format(tab-delimited), UTF-8 (without BOM), Line ending: LF
・Size: 7.8GB

Age Male Female Total
10 14 23 37
11 22 33 55
12 35 34 69

Structure of database :
├─ readme.txt
├─ Chinese Kids Speech Database (Upper grade).pdf Description document of the database
├─ transcription(Upper).tsv Transcription
└─ High/ directory of audio data
└─ (1st/2nd/3rd) directory of version ID
└─(0/1) directory of gender (0: male, 1: female)
└─(audio_file) audio file (WAV format, 16KHz, 16bit, mono)

Field information of “transcription(Upper).tsv” are as follows:
Field number Description
0 Script ID
1 Speaker ID
2 Audio file name
3 Transcription (in Chinese)

File naming conventions of audio files are as follows:
Field number Contents Description Remarks
0 Script ID Four digits XXXX: four digits
1 Speaker ID Three digits XXX: three digits
2 Age Two digits From 10 to 12
3 Gender 0: male, 1: female
4 Utterance No. Three digits Sequential numbering starting from 001 within each speaker
5 Recording date YYYYMMDDHHMM
6 Recording device name Recording device name Ex. NTH-AN00
7 OS Operating System info of recording device Ex. android-11
8 Duration duration in msec Duration of the actual spoken utterance

Filed separation character is “_”.
For example, if the audio file name is “1190_190_11_0_001_202204291812_V2162A_android-11_3290.wav“, this file has the following meaning:
1190: script ID
190: speaker ID
11: age (eleven years old)
0: gender (male)
001: utterance number
202204291812: recording date (April 29, 2022, at 6:12 PM)
V2162A: recording device name
android-11: operating system info of recording device
3290: duration of the actual spoken utterance (3,290 msec)

View resource description in French

La base de données audio d'enfants chinois (niveau cours moyen et collège) contient les enregistrements de 161 enfants chinois (71 garçons et 90 filles), âgés de 10 à 12 ans enregistrés dans des salles calmes en utilisant des smartphones. Cette base de données peut être complétée par la Base de données audio d'enfants japonais (niveau cours élémentaire) également disponible dans le catalogue ELRA sous la référence ELRA-S0496.

Le nombre de locuteurs, d’occurrences, la durée et l'âge sont les suivants:
Nombre de locuteurs (garçon/fille): 161 (71/90)
Nombre d'énoncés (moyenne): 234 utt/spkr
Nombre total d'énoncés: 37,806
Age: de 10 à 12 ans
Nombre total d'heures de données: 72

1859 phrases ont été utilisées. Les enregistrements ont été réalisés via des smartphones et les données audio sont stockées dans des fichiers .wav sous forme de séquences de 16KHz mono, 16 bits, PCM linéaire.

Base de données
・ Données audio: format WAV, 16 KHz, 16 bits, mono (enregistrées avec un smartphone)
・ Données de transcription: format TSV (délimité par des tabulations), UTF-8 (sans BOM), fin de ligne: LF
・ Taille: 7,8 Go

Age Garçons Filles Total
10 14 23 37
11 22 33 55
12 35 34 69

Structure de la base de données:
├─ readme.txt
├─ Chinese Kids Speech Database (Upper grade).pdf Document de description de la base de données
├─ transcription(Upper).tsv Transcription
└─ High/ répertoire de données audio
└─ (1st/2nd/3rd) répertoire de version
└─(0/1) répertoire par sexe (0: garçon, 1: fille)
└─(audio_file) fichier audio (format WAV, 16KHz, 16bit, mono)

Les informations des champs de “transcription(Lower).tsv” sont les suivantes:
Field number Contenu
0 Identifiant du script
1 Identifiant du locuteur
2 Nom du fichier audio
3 Transcription (en chinois)

Les conventions de nommage des fichiers audio sont les suivantes:
Numéro du champ Contenu Description Remarques
0 Identifiant du script Quatre chiffres XXXX: quatre chiffres
1 Identifiant du locuteur Trois chiffres XXX: trois chiffres
2 Age Deux chiffres De 06 à 10
3 Sexe 0: garçon, 1: fille
4 Numéro d’occurrence Trois chiffres Numérotation séquentielle à partir de 001 pour chaque locuteur
5 Date d’enregistrement YYYYMMDDHHMM
6 Nom de l’outil d’enregistrement Nom de l’outil d’enregistrement Ex. NTH-AN00
7 OS Info sur le système d’exploitation de l’outil d’enregistrement Ex. android-11
8 Durée durée en msec Durée de l’occurrence parlée réelle

Le caractère de séparation est «_».
Par exemple, si le nom du fichier audio est “1318_373_09_1_010_202205041857_NTH-AN00_android-11_5480.wav“, ce fichier a la signification suivante:
1190: identifiant du script
190: identifiant du locuteur
11: âge (neuf ans)
0: sexe (masculin)
001: numéro d’occurrence
202204291812: date d’enregistrement (29 avril 2022 à 18:12)
V2162A: nom de l’outil d’enregistrement
android-11: info sur le système d’exploitation de l’outil d’enregistrement
3290: durée de l’occurrence parlée réelle (3290 msec)

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	3300.00 €	20000.00 €
Licence: Commercial Use - ELRA VAR	20000.00 €	20000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	13300.00 €	20000.00 €
Licence: Commercial Use - ELRA VAR	20000.00 €	20000.00 €

DistributionAvailability start date 18/07/2025 Contact Person

Valérie Mapelli

audio

Monolingual audio corpusLanguages

Chinese

Linguality

Linguality type: Monolingual

Size

72 Hours

Metadata

Created: 07/18/2025

Last Updated: 07/18/2025

Metadata Language: French, English (fr, en)

People who looked at this resource also viewed the following: