Contrastive Language-Image Pre-training for the Italian Language

Federico Bianchi, Giuseppe Attanasio*, Raphael Pisoni, Silvia Terragni, Gabriele Sarti, Dario Balestri

*Corresponding author for this work

    Research output: Chapter in Book/Report/Conference proceedingConference contributionAcademicpeer-review

    21 Downloads (Pure)

    Abstract

    Recently, multi-modal systems such as CLIP (Contrastive Language-Image Pre-training) were introduced to represent images and texts jointly in the same embedding space. These models are trained on massive amounts of image-caption pairs and show impressive performance on zero-shot image classification. However, their usage is limited to English due to their training data. Training the same model for different languages is non-trivial since the amount of natural data in those might not be sufficient, and automatic translations of original captions might not have sufficient quality, harming performance. In this paper, we present the first CLIP model for the Italian Language (CLIP-Italian), trained on more than 1.4 million image-text pairs. Results show that CLIP-Italian outperforms a multilingual CLIP model on image retrieval and zero-shot classification tasks for the Italian language.1 Sistemi multimodali come CLIP (Contrastive Language-Image Pre-training) sono stati proposti di recente al fine di ottenere rappresentazioni di immagini e testo in uno spazio latente condiviso. Questi modelli sono allenati su enormi quantità di immagini associate alle loro didascalie, e dimostrano abilità eccellenti nell'effettuare classificazioni “zero-shot”. Ciononostante, il loro utilizzo è limitato all'inglese, la lingua utilizzata durante il loro addestramento. Ottenere modelli del genere per altre lingue non è cosa da poco, poiché la quantità di dati a disposizione per queste lingue potrebbe non essere sufficiente e la traduzione automatica delle didascalie inglesi originali potrebbe portare a risultati non soddisfacenti. In questo articolo presentiamo il primo modello CLIP per la lingua italiana (CLIP-Italian), addestrato con più di 1.4 milioni di immagini e rispettive didascalie. I risultati riportati dimostrano l'efficacia di CLIP-Italian per l'estrazione e la classificazione zero-shot in italiano, ottenendo risultati migliori di un modello CLIP multilingue.

    Original languageEnglish
    Title of host publicationProceedings of the 9th Italian Conference on Computational Linguistics
    EditorsFederico Boschetti, Gianluca E. Lebani, Bernardo Magnini, Nicole Novielli
    PublisherCEUR Workshop Proceedings (CEUR-WS.org)
    Number of pages8
    Publication statusPublished - 2023
    Event9th Italian Conference on Computational Linguistics, CLiC-it 2023 - Venice, Italy
    Duration: 30-Nov-20232-Dec-2023

    Publication series

    NameCEUR Workshop Proceedings
    Volume3596
    ISSN (Print)1613-0073

    Conference

    Conference9th Italian Conference on Computational Linguistics, CLiC-it 2023
    Country/TerritoryItaly
    CityVenice
    Period30/11/202302/12/2023

    Keywords

    • clip
    • contrastive
    • image
    • italian
    • language
    • multimodal
    • pretraining

    Cite this