Parallel Corpora & Domains (bilingual and multilingual)

View resource name in all available languages

Corpus parallèles & domaines (bilingues et multilingues)

471-919-856-164-1

ID:

ELRA-W0336

Parallel corpora for nearly 400 language pairs and numerous multilingual combinations, including 10 million bilingual segments and 90 million tokens in 20 languages: Arabic, Chinese (Simplified), Danish, Dutch, English, Finnish, French, German, Greek, Hebrew, Italian, Japanese, Korean, North Sami, Norwegian, Polish, Portuguese (Brazilian and European), Russian, Spanish, Swedish, and Turkish.

The segments consist of full sentences and short phrases with translation equivalents, based on corpus evidence and frequency, and were originally created by editors and translators worldwide as examples of usage for dictionary entries. Some of the bilingual pairs were generated via a third pivot language.

The data can be applied to train Machine Learning and Large Language Models and to boost the performance of Machine Translation solutions.

Besides general language vocabularies, there are segments for over a hundred vertical domains:
administration, advertising, aeronautics, agriculture, anatomy, anthropology, archaeology, architecture, art, astrology, astronomy, automobiles, aviation, biology, botanics, cartography, chemistry, cinema, clothing, color, commerce, computers, construction, cosmetics, culinary, culture, dance, data, dress, drinks, drugs, ecology, economics, education, electricity, electronics, energy, engineering, entertainment, environment, family, fashion, finance, furniture, games, genetics, geography, geology, geometry, grammar, health, history, hygiene, industry, informatics, Internet, IT, journalism, law, leisure/hobbies, linguistics, literature, maritime, marketing, mathematics, measurements/units, mechanics, medicine, meteorology, military, music, mythology, nautical, occupation, oceanography, optics, pharmacology, philosophy, photography, physics, physiology, police, politics, post, psychology, publishing, radio, rail, religion, school, sex, sociology, space, sport, statistics, technical, technology, telecommunication, telephone, television, theatre, theology, time, tourism, transportation, university, zoology.


Note: Prices are indicated per segment unit. Please contact us to obtain our quotation corresponding to expected languages and domains.

View resource description in French

Corpus parallèles pour environ 400 paires de langues et de nombreuses combinaisons multilngues, comprenant 10 millions de segments bilingues et 90 millions de tokens dans 20 langues: allemand, anglais, arabe, chinois (simplifié), coréen, danois, espagnol, finnois, français, grec, hébreu, italien, japonais, néerlandais, norvégien, polonais, portugais (brésilien et européen), russe, sami du nord, suédois, turc.

Les segments consistent en des phrases entières et des expressions courtes avec leurs équivalents de traduction, basés sur des corpus comparés et la fréquence, et qui ont été créés à l’origine par des éditeurs et des traducteurs du monde entier comme exemples d’usage pour la creation d’entrées de dictionnaires. Certaines paires de langues ont été générées par l’intermédiaire d’une troisième langue pivot.

Ces données peuvent être utilisées pour l’entraînement de systèmes d’apprentissage, des modèles de langue et pour améliorer la performation des solutions de traduction automatique.

En plus du vocabulaire général de la langue, des segments sont disponibles pour plus d’une centaine de domaines verticaux:
administration, aéronautique, agriculture, anatomie, anthropologie, archéologie, architecture, art, astrologie, astronomie, automobile, aviation, biologie, boisson, botanique, cartographie, chimie, cinéma, commerce, construction, cosmétiques, couleur, culinaire, culture, danse, divertissement, données, droit, école, écologie, économie, édition, éducation, électricité, électronique, énergie, environnement, espace, famille, ferroviaire, finance, génétique, géographie, géologie, géométrie, grammaire, habillement, histoire, hygiène, industrie, informatique, informatique, ingénierie, Internet, jeux, journalisme, linguistique, littérature, loisirs, maritime, marketing, mathématiques, mécanique, médecine, médicaments, mesures/unités, météorologie, militaire, mobilier, mode, musique, mythologie, nautique, océanographie, optique, ordinateurs, pharmacologie, philosophie, photographie, physiologie, physique, police, politique, poste, professions, psychologie, publicité, radio, religion, santé, sexe, sociologie, sport, statistiques, technique, technologie, télécommunication, téléphonie, télévision, temps, tenue vestimentaire, théâtre, théologie, tourisme, transports, université, zoologie.

Remarque: Le prix indiqué est le prix par unité de segment. Merci de nous contacter pour obtenir un devis correspondant aux langues et domaines souhaités.

MEMBERacademiccommercial
Licence: Commercial Use - ELRA VAR
0.10 € submit
0.10 € submit
NON MEMBERacademiccommercial
Licence: Commercial Use - ELRA VAR
0.11 € submit
0.11 € submit

Special offer:

    Discount for a combined purchase of Parallel Corpora & Domains (bilingual and multilingual):
    - Between 100,000-500,000 segments: 5% on total number of segments
    - Between 500,000-1,000,000 segments: 10% on total number of segments
    - Between 1,000,000-5,000,000 segments: 15% on total number of segments
    - Over 5,000,000 segments: 20% on total number of segments

04/10/2023
People who looked at this resource also viewed the following: