Corpus of Spontaneous Japanese (CSJ)

View resource name in all available languages

Corpus du japonais spontané

280-594-494-328-0

ID:

ELRA-S0488

The "Corpus of Spontaneous Japanese" (or CSJ) is a database containing a large collection of Japanese spoken language data and information for use in linguistic research; jointly developed by NINJAL, NICT and the Tokyo Institute of Technology, the CSJ is world-class in both the quantity and quality of the available data.

The corpus has been used for a wide variety of research purposes such as spoken language processing, natural language processing, phonetics, psychology, sociology, Japanese education, and dictionary compilation.

The whole CSJ contains about 650 hours of spontaneous speech that correspond to about 7000k words. All these speech materials are recorded using head-worn close-talking microphones and DAT, and down-sampled to 16kHz, 16bit accuracy. The speech material is transcribed using a two-way transcription scheme designed especially for CSJ. Also, POS (part-of-speech) analysis based upon two different kinds of 'word' is applied for the whole corpus.

Recorded speech is transcribed in two different ways: orthographic and phonetic transcriptions:
- In "orthographic" transcription, speech is transcribed using Kanji (Chinese logograph) and Kana (Japanese syllabary) just like ordinary Japanese text, but unlike the ordinary Japanese writing, the orthographic transcription has rigorous rules about the usage of Kanji and Kana letters. In ordinary text, for example, there are more than five ways of transcribing the phonemic string of /hanasiai/ ("meeting") using Kanji and Kana, but in the CSJ orthographic transcription, only one is allowed.
- "Phonetic" transcription is written exclusively in Kana letters so that the phonetic details of the utterance being transcribed can be traced.

There is a true subset of CSJ, called the Core, which contains about 500k words or 45 hours of speech. Core is the part of CSJ to which the cost of annotation is concentrated. In addition to the two-way transcription and two-way POS analysis, segment label, intonation label, and other miscellaneous annotations are provided for the Core.

View resource description in French

Le Corpus du japonais spontané est une base de données qui contient une large collection de données de parole en japonais et des informations utiles pour un usage en recherche linguistique. Développé conjointement par NINJAL, NICT et l’Institut de Technologie de Tokyo, ce corpus offre des données de première catégorie en termes de quantité et de qualité.

Le corpus a été utilisé pour une grande variété d’objectifs de recherche, tels que le traitement de la parole, le traitement du langage naturel, la phonétique, la psychologie, la sociologie, l’éducation japonaise et la compilation de dictionnaires.

La corpus complet comprend environ 650 heures de parole spontanée correspondant à environ 7000k mots. L’intégralité du matériel audio a été enregistré via des micro-casques à courte portée et sur DAT, et ont été sous-échantillonnés à 16kHz, 16 bit de précision. Le matériel audio a été transcript en suivant un schema de transcription en deux modes, spécialement conçus pour ce corpus. De plus, l’analyse de la partie du discours base sur le deux types différents de “mot” est appliquée à l’intégralité du discours.

La parole enregistrée a été transcrite en deux modes différents, soit en transcriptions orthographiques et phonétiques:
- Dans la transcription "orthographique", la parole a été transcrite en Kanji (écriture logographique chinoise) et Kana (alphabet syllabaire japonais) comme un texte ordinaire japonais, mais contrairement à l’écriture ordinaire en japonais, la transcription orthographique suit des régles sur l’usage des caractères Kanji et Kana. Dans un texte ordinaire, par exemple, il y a plus de cinq manières de transcrire la chaîne phonémique /hanasiai/ ("réunion") en utilisant le Kanji et le Kana, mais une seule est permise pour le transcription orthographique du corpus.
- La transcription "phonétique" est écrite exclusivement en caractères Kana pour permettre de retracer les détails phonétiques des occurrences transcrites.

Un sous-ensemble du corpus, appelé “Core”, contient environ 500k mots, soit 45 heures de parole. Le travail d’annotation est concentré spécifiquement sur cette partie du corpus. Ainsi, en plus de la transcription et de l’analyse de la partie du discours en deux modes, le “Core” présente un étiquetage des segments, de l’intonation et diverses autres annotations.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
345.00 € submit
34500.00 € submit
Licence: Commercial Use - ELRA VAR
34500.00 € submit
34500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
431.25 € submit
43125.00 € submit
Licence: Commercial Use - ELRA VAR
43125.00 € submit
43125.00 € submit
26/09/2023
People who looked at this resource also viewed the following: