PAROLE-SIMPLE-CLIPS PISA Italian Lexicon – Full lexicon

View resource name in all available languages

Lexique italien PAROLE-SIMPLE-CLIPS de Pise – Lexique complet

388-991-977-669-9

ID:

ELRA-L0072-01

This lexicon is subdivided into five different subsets:
L0072-01 Full lexicon
L0072-02 Phonetic layer
L0072-03 Morphological layer
L0072-04 Syntactic layer
L0072-05 Semantic layer

PAROLE-SIMPLE-CLIPS is a four-level, general purpose lexicon that has been elaborated over three different projects. The kernel of the morphological and syntactic lexicons was built in the framework of the LE-PAROLE project. The linguistic model and the core of the semantic lexicon were elaborated in the LE-SIMPLE project, while the phonological level of description and the extension of the lexical coverage were performed in the context of the Italian project Corpora e Lessici dell'Italiano Parlato e Scritto (CLIPS).

The PAROLE-SIMPLE-CLIPS Pisa Italian Lexicon comprises a total of 387,267 phonetic units, 53,044 morphological units (53,044 lemmas), 37,406 syntactic units (28,111 lemmas) and 28,346 semantic units (19,216 lemmas). It was encoded at the semantic level, in full accordance with the international standards set out in the PAROLE-SIMPLE model and based on EAGLES. Syntactic and semantic encoding were performed jointly with Thamus (Consortium for Multilingual Documentary Engineering).

PAROLE-SIMPLE-CLIPS offers therefore the advantage of being compatible with the other eleven PAROLE-SIMPLE lexicons that were built for European languages and that share a common theoretical model, representation language and building methodology.

A PAROLE-SIMPLE-CLIPS entry gathers together all the phonological, morphological and inherent syntactic and semantic properties of a headword. Its subcategorization pattern is (or are) described in terms of optionality, syntactic function, syntagmatic realization as well as morpho-syntactic, syntactic and lexical properties of each slot filler. At the semantic level, the theoretical approach adopted by the SIMPLE model is essentially grounded on a revisited version of some fundamental aspects of the Generative Lexicon.

A SIMPLE-CLIPS semantic unit is richly endowed with a wide range of fine-grained, structured information, most relevant for NLP applications. First among them, the ontological typing: the lexicon is in fact structured in terms of a multidimensional type system based on both hierarchical and non-hierarchical conceptual relations, taking into account the principle of orthogonal inheritance. Other relevant information types in a word entry are its domain of use; type of denoted event; synonymy and morphological derivation relations; membership in a class of regular polysemy as well as any relevant distinctive semantic features. Particularly outstanding is the information encoded in the Extended Qualia Structure (a set of 60 semantic relations that allow modelling both the different meaning dimensions of a word sense and its relationships to other lexical units) and the Predicative Representation which describes the semantic scenario the word sense considered is involved in and characterizes its participants in terms of thematic roles and semantic constraints.

In a word’s description, lexical information is interrelated across the four description levels. Syntactic and semantic information, in particular, is related to each other through the projection of the predicate-argument structure onto its syntactic realization(s).

References :
Ruimy N., Corazzari O., Gola E., Spanu A., Calzolari N., Zampolli A. 2003. The PAROLE model and the Italian Syntactic lexicon. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 793-820.

Lenci A., Busa F., Ruimy N., Gola E., Monachini M., Calzolari N., Zampolli A. et al., 2000. SIMPLE Linguistic Specifications, SIMPLE LE4-8346 EC Project, Deliverable D2.1 & D2.2, WP02, Final version, March 2000, ILC and University of Pisa, 404 pp.

Ruimy N., Monachini M., Gola E., Calzolari N., Del Fiorentino M.C., Ulivieri M., Rossi S. 2003. A computational semantic lexicon of Italian: SIMPLE. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 821-864.

Ruimy N., Monachini M., Distante R., Guazzini E., Molino S., Ulivieri M., Calzolari N., Zampolli A. 2002. CLIPS, A Multi-level Italian Computational Lexicon: a Glimpse to Data. LREC 2002: Third LREC. Las Palmas de Gran Canaria, Spain 29th, 30th & 31 May 2002. Proceedings, Volume III, Paris, The European Languages Resources Association (ELRA). 792-799.

View resource description in French

Ce lexique est divisé en cinq sous-ensembles :
L0072-01 Lexique complet
L0072-02 Niveau phonétique
L0072-03 Niveau morphologique
L0072-04 Niveau syntaxique
L0072-05 Niveau sémantique

PAROLE-SIMPLE-CLIPS est un lexique générique à quatre niveaux qui a été élaboré au cours de trois projets différents. Le noyau des lexiques morphologique et syntaxique a été realisé dans le cadre du projet LE-PAROLE. Le modèle linguistique et le noyau du lexique sémantique ont été élaborés dans le projet LE-SIMPLE, tandis que le niveau phonologique de description et l’extension de la couverture lexicale ont été réalisés dans le contexte du projet italien Corpora e Lessici dell'Italiano Parlato e Scritto (CLIPS).

Le lexique italien PAROLE-SIMPLE-CLIPS de Pise comprend un total de 387 267 unités phonétiques, 53 044 unités morphologiques (53 044 lemmes), 37 406 unités syntaxiques (28 111 lemmes) et 28 346 unités sémantiques (19 216 lemmes). Il a été codé au niveau sémantique, en respectant entièrement les standards internationaux fixés dans le modèle PAROLE-SIMPLE et basés sur EAGLES. Le codage syntaxique et sémantique ont été réalisés conjointement avec Thamus (Consortium pour l’ingénierie documentaire multilingue).

Ainsi, PAROLE-SIMPLE-CLIPS offre l’avantage d’être compatible avec les onze autres lexiques PAROLE-SIMPLE qui ont été construits pour les langues européennes et qui partagent un modèle théorique commun, un langage de représentation et une méthodologie de construction.

Une entrée de type PAROLE-SIMPLE-CLIPS regroupe toutes les propriétés phonologiques, morphologiques et inhérentes à la syntaxe et à la sémantique d’un mot-tête (« headword »). Son modèle de sous-catégorisation est décrit en termes d’optionalité, de fonction syntaxique, de réalisation syntagmatique, ainsi qu’en termes de propriétés morpho-syntaxiques, syntaxiques et lexicales de chaque catégorie fonctionnelle (« slot-filler »). Au niveau sémantique, l’approche théorique adoptée par le modèle SIMPLE est essentiellement basée sur une version revisitée de quelques aspects fondamentaux du Lexique Génératif.

Une unité sémantique SIMPLE-CLIPS est richement doté d’une grande variété d’informations fines et structurées, des plus importantes pour les applications en TAL. En tête de ces informations, la typologie ontologique : le lexique est en fait structuré en termes de systèmes de types multidimensionnels basé sur des relations conceptuelles hiérarchiques et non hiérarchiques, prenant en compte le principe d’héritage orthogonal. D’autres types d’information intéressants dans une entrée de mot sont son domaine d’usage, le type d’événement indiqué, la synonymie et les relations de dérivation morphologique, affectation à une classe de polysémie régulière, ainsi qu’à des traits sémantiques distinctifs. Une information particulièrement intéressante est l’information codée dans la Structure de Qualia étendue (un ensemble de 60 relations sémantiques qui permettente de modéliser à la fois les différentes dimensions de signification du sens d’un mot et ses relations avec les autres unités lexicales) et la Représentation prédicative qui décrit le scénario sémantique dans lequel est impliqué le sens du mot considéré et qui caractérise les participants en termes de rôles thématiques et de contraintes sémantiques.

Dans une description de mot, l’information lexicale est étroitement liée entre les quatre nivaux de description. Les informations syntaxique et sémantique, en particulier, sont reliées entre elles grâce à la projection de la structure de l’argument-prédicat sur la ou ses réalisations syntaxiques.

Références :
Ruimy N., Corazzari O., Gola E., Spanu A., Calzolari N., Zampolli A. 2003. The PAROLE model and the Italian Syntactic lexicon. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 793-820.

Lenci A., Busa F., Ruimy N., Gola E., Monachini M., Calzolari N., Zampolli A. et al., 2000. SIMPLE Linguistic Specifications, SIMPLE LE4-8346 EC Project, Deliverable D2.1 & D2.2, WP02, Final version, March 2000, ILC et Université de Pisa, 404 pp.

Ruimy N., Monachini M., Gola E., Calzolari N., Del Fiorentino M.C., Ulivieri M., Rossi S. 2003. A computational semantic lexicon of Italian: SIMPLE. In A. Zampolli, N. Calzolari, L. Cignoni, (eds.), Computational Linguistics in Pisa - Linguistica Computazionale a Pisa. Linguistica Computazionale, Special Issue, XVIII-XIX, (2003). Pisa-Roma, IEPI. Tomo II, 821-864.

Ruimy N., Monachini M., Distante R., Guazzini E., Molino S., Ulivieri M., Calzolari N., Zampolli A. 2002. CLIPS, A Multi-level Italian Computational Lexicon: a Glimpse to Data. LREC 2002: Troisième LREC, Las Palmas de Gran Canaria, Espagne 29, 30 & 31 mai 2002. Proceedings, Volume III, Paris, The European Languages Resources Association (ELRA). 792-799.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1500.00 € submit
12000.00 € submit
Licence: Commercial Use - ELRA VAR
12000.00 € submit
12000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2000.00 € submit
15600.00 € submit
Licence: Commercial Use - ELRA VAR
15600.00 € submit
15600.00 € submit
18/09/2006
People who looked at this resource also viewed the following:
Resources from the same project