CAREGIVER Corpus

View resource name in all available languages

Corpus CAREGIVER

072-357-063-759-1

ID:

ELRA-S0410

A multi-lingual speech corpus used for modeling language acquisition called CAREGIVER has been designed and recorded within the framework of the EU funded Acquisition of Communication and Recognition Skills (ACORNS) project. The motivation behind the corpus and its design relies on current knowledge regarding infant language acquisition. Instead of recording infants and children, the voices of their primary and secondary caregivers were captured in both infant-directed and adult-directed speech modes over four languages in a read speech manner. The challenges and methods applied to obtain similar prompts in terms of complexity and semantics across different languages, as well as the normalized recording procedures employed at different locations, are covered. An orthographic transcription is available for every utterance. Also, time-aligned word and phone annotations for some of the sub-corpora exist.

However, in the actual corpus there are a couple of deviations from this setup. The corpus contains nearly 66,000 utterance-based audio files spoken over a two-year period by 16 male and 14 female native speakers of Dutch, English, and Finnish. Swedish is not provided. For Dutch only year 2 recordings are available.

Overview:

1) UK English:
Year 1:
- 4 speakers (2 males, 2 females)
- 1000 recordings per speaker
- orthographic transcriptions in .xml and speech recordings in .wav
Year 2 :
- 10 speakers including 4 speakers (same as for year 1) with 2397 recordings per speaker and 6 speakers (3 males, 3 females) used as test speakers with 600 recordings per speaker
- orthographic transcriptions in .xml and speech recordings in .wav
- annotation: time stamps at word and phone levels by Forced Alignment and a list of errors in time stamps at word level

2) Finnish:
Year 1 :
- 4 speakers (2 males, 2 females)
- 2000 recordings per speaker
- orthographic transcriptions in .xml and speech recordings in .wav
Year 2:
- 10 speakers including 4 speakers (same as for year 1) with 2397 recordings per speaker and 6 speakers (3 males, 3 females) used as test speakers with 600 recordings per speaker
- orthographic transcriptions in .xml and speech recordings in .wav

3) Dutch:
Year 2:
- 10 speakers including 4 speakers recorded twice (2 males and 2 females) and 6 speakers (4 males and 2 females) used as test speakers with one recording session.
- orthographic transcriptions in .cor and speech recordings in .wav
- annotation: time stamps at sentence level only

To be mentioned as reference to the corpus:
Altosaar, T., Bosch, L. ten, Aimetti, G., Koniaris, Chr., Demuynck, K., Heuvel, H. van den (2010): A Speech Corpus for Modeling Language Acquisition: CAREGIVER. Proceedings LREC2010, Malta, pp. 1062-1068. http://www.lrec-conf.org/proceedings/lrec2010/pdf/597_Paper.pdf.

View resource description in French

Ce corpus de parole multilingue utilisé pour la modélisation d’acquisition de la langue appelé CAREGIVER a été conçu et enregistré dans le cadre du projet ACORNS (Acquisition of Communication and Recognition Skills – Acquisition de compétences de communication et de reconnaissance) financé par l’Union européenne. La motivation derrière ce corpus et sa conception se base sur la connaissance actuelle dans le domaine de l’acquisition du langage par les enfants. Au lieu d’enregistrer les bébés et les enfants, ce sont les voix de leur soignants ou aidants primaires et secondaires qui ont été capturées dans des modes de locution dirigés à la fois vers l’enfant et vers l’adulte dans quatre langues et en parole lue. Les défis et méthodes appliqués pour obtenir des prompts similaires dans les différentes langues en termes de complexité et de sémantique, ainsi que les procédures d’enregistrement normalisées employées dans différents lieux ont été couverts. Une transcription orthographique est disponible pour chaque occurrence. Des annotations consistant en l’alignement temporel au niveau du mot et des phones existent pour certains des sous-corpus.

Cependant, le corpus actuel comprend quelques déviations par rapport aux spécifications d’origine. Celui-ci contient environ 66 000 fichiers audio basés sur l’occurrence sur une période de 2 ans pour 16 locuteurs hommes et 14 locuteurs femmes natifs du néerlandais, anglais et finnois. Le suédois n’est pas fourni. Pour le néerlandais, seuls les enregistrements de l’année 2 sont disponibles.

Détails:

1) Anglais britannique:
Année 1:
- 4 locuteurs (2 hommes, 2 femmes)
- 1000 enregistrements par locuteur
- transcriptions orthographiques en.xml et enregistrements en .wav
Année 2 :
- 10 locuteurs incluant 4 locuteurs (identiques à l’année 1) avec 2397 enregistrements par locuteur et 6 locuteurs (3 hommes, 3 femmes) utilisés comme locuteurs test avec 600 enregistrements par locuteur
- transcriptions orthographiques en.xml et enregistrements en .wav
- annotation: marques temporelles au niveau du mot et du phone réalisées via Forced Alignment et une liste d’erreurs dans les marques temporelles au niveau du mot

2) Finnois:
Année 1 :
- 4 locuteurs (2 hommes, 2 femmes)
- 2000 enregistrements par locuteur
- transcriptions orthographiques en.xml et enregistrements en .wav
Année 2:
- 10 locuteurs incluant 4 locuteurs (identiques à l’année 1) avec 2397 enregistrements par locuteurs et 6 locuteurs (3 hommes, 3 femmes) utilisés comme locuteurs test avec 600 enregistrements par locuteur
- transcriptions orthographiques en.xml et enregistrements en .wav

3) Néerlandais:
Année 2:
- 10 locuteurs incluant 4 locuteurs enregistrés 2 fois (2 hommes et 2 femmes) et 6 locuteurs (4 hommes et 2 femmes) utilisés comme locuteurs test avec une session d’enregistrement.
- transcriptions orthographiques en .cor et enregistrements en .wav
- annotation: marques temporelles au niveau de la phrase uniquement

Références à mentionner pour le corpus:
Altosaar, T., Bosch, L. ten, Aimetti, G., Koniaris, Chr., Demuynck, K., Heuvel, H. van den (2010): A Speech Corpus for Modeling Language Acquisition: CAREGIVER. Proceedings LREC2010, Malta, pp. 1062-1068. http://www.lrec-conf.org/proceedings/lrec2010/pdf/597_Paper.pdf.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
03/09/2020
People who looked at this resource also viewed the following: