Slovak Autistic and Non-Autistic Child Speech Corpus (SANACS)

Corpus de parole en slovaque d’enfants autistes et non autistes (SANACS)





Slovak Autistic and Non-Autistic Child Speech Corpus (SANACS) contains 67 recorded sessions of interactions between two native Slovak speakers. In 37 sessions an autistic child interacts with a neurotypical adult experimenter, and in 30 control sessions a neurotypical child interacts with the same neurotypical adult experimenter. The children were 6-12 years old (mean 9.2).

In all sessions, the two participants are involved in a collaborative, task-oriented communication based on the Maps Task. Our maps were edited so that they contain several objects with a "preferred" and "dispreferred" lexical label. The experimenter was instructed to use the dispreferred label for each of these objects. Most tasks consist of six trials: a practice and two real trials where the experimenter is the describer and the child the follower, and then one practice and two real trials when the roles switched and the child is the describer and the experimenter is the follower. The interaction in between these trials, such as discussion about the maps, has not been transcribed but are included in the audio files.

For each of 67 sessions, the corpus contains an audio file in .wav format and the transcription in the Praat .textgrid format. In each textrid file, tier 1 reflects the trial of the Maps task (trial 1 = hra1, trial 2 = hra2 et cetera). Speech was aligned at the level of interpausal units (minimum silence of 250ms): tier 2 contains the experimenter’s utterances and tier 3 contains the child’s utterances. All the files of children with autism are named with the letter “a” and a number (e.g. “a12”), while all the files of the neurotypical children are named with a “k” and a number (e.g. “k17”).

The corpus was recorded in 2021-2022 through collaboration between the Institute of Informatics, Slovak Academy of Sciences, and the Academic Research Center for Autism, Comenius University, both in Bratislava, Slovakia. It was manually transcribed and aligned in 2023.

Reference: Joanna Kruyt, Róbert Sabo, Katarína Polónyiová, Daniela Ostatníková, and Štefan Beňuš. 2024. The Slovak Autistic and Non-Autistic Child Speech Corpus:Task-Oriented Child-Adult Interactions. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 16094–16099, Torino, Italia. ELRA and ICCL.

Le corpus de parole en slovaque d’enfants autistes et non autistes (SANACS) contient 67 sessions enregistrées d’interactions entre deux locuteurs natifs slovaques. Dans 37 sessions, un enfant autiste interagit avec un expérimentateur adulte neurotypique, et dans les 30 autres sessions de contrôle, un enfant neurotypique interagit avec le même expérimentateur adulte neurotypique. Les enfants sont âgés de 6 à 12 ans (moyenne 9,2).

Dans toutes les sessions, les deux participants sont impliqués dans une communication collaborative basée sur une tâche de repérage sur cartes. Lesd cartes ont été éditées de sorte qu’elles contiennent plusieurs objets avec une étiquette lexicale "préférée" et "non préférée". L’expérimentateur a été chargé d’utiliser l’étiquette "non préférée" pour chacun de ces objets. La plupart des tâches consistent en six essais: une pratique et deux essais réels où l’expérimentateur est celui qui décrit et l’enfant celui qui suit, puis une pratique et deux essais réels où les rôles sont échangés et l’enfant devient celui qui décrit et l’expérimentateur celui qui suit. L’interaction entre ces essais, telle que la discussion sur les cartes, n’a pas été transcrite mais est incluse dans les fichiers audio.

Pour chacune des 67 sessions, le corpus contient un fichier audio au format.wav et la transcription au format .textgrid de Praat. Dans chaque fichier textrid, le niveau 1 reflète l’essai de la tâche de cartes (essai 1 = hra1, essai 2 = hra2, etc.). Le discours a été aligné au niveau des unités interpausales (silence minimum de 250 ms): le niveau 2 contient les énoncés de l’expérimentateur et le niveau 3 contient les énoncés de l’enfant. Tous les dossiers des enfants autistes sont nommés avec la lettre "a" et un numéro (par exemple "a12"), tandis que tous les fichiers des enfants neurotypiques sont nommés avec un "k" et un numéro (par exemple "k17").

Le corpus a été enregistré en 2021-2022 grâce à une collaboration entre l’Institut d’informatique de l’Académie slovaque des sciences et le Centre de recherche académique pour l’autisme de l’Université Comenius, tous deux situés à Bratislava, en Slovaquie. Il a été transcrit manuellement et aligné en 2023.

Référence: Joanna Kruyt, Róbert Sabo, Katarína Polónyiová, Daniela Ostatníková, and Štefan Beňuš. 2024. The Slovak Autistic and Non-Autistic Child Speech Corpus:Task-Oriented Child-Adult Interactions. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 16094–16099, Torino, Italia. ELRA and ICCL.

Licence: Non Commercial Use - ELRA END USER
Licence: Non Commercial Use - ELRA END USER
