@inproceedings{f152072c9a394eec84c7e30b25ceaf98,
title = "Contrastive Language-Image Pre-training for the Italian Language",
abstract = "Recently, multi-modal systems such as CLIP (Contrastive Language-Image Pre-training) were introduced to represent images and texts jointly in the same embedding space. These models are trained on massive amounts of image-caption pairs and show impressive performance on zero-shot image classification. However, their usage is limited to English due to their training data. Training the same model for different languages is non-trivial since the amount of natural data in those might not be sufficient, and automatic translations of original captions might not have sufficient quality, harming performance. In this paper, we present the first CLIP model for the Italian Language (CLIP-Italian), trained on more than 1.4 million image-text pairs. Results show that CLIP-Italian outperforms a multilingual CLIP model on image retrieval and zero-shot classification tasks for the Italian language.1 Sistemi multimodali come CLIP (Contrastive Language-Image Pre-training) sono stati proposti di recente al fine di ottenere rappresentazioni di immagini e testo in uno spazio latente condiviso. Questi modelli sono allenati su enormi quantit{\`a} di immagini associate alle loro didascalie, e dimostrano abilit{\`a} eccellenti nell'effettuare classificazioni “zero-shot”. Ciononostante, il loro utilizzo {\`e} limitato all'inglese, la lingua utilizzata durante il loro addestramento. Ottenere modelli del genere per altre lingue non {\`e} cosa da poco, poich{\'e} la quantit{\`a} di dati a disposizione per queste lingue potrebbe non essere sufficiente e la traduzione automatica delle didascalie inglesi originali potrebbe portare a risultati non soddisfacenti. In questo articolo presentiamo il primo modello CLIP per la lingua italiana (CLIP-Italian), addestrato con pi{\`u} di 1.4 milioni di immagini e rispettive didascalie. I risultati riportati dimostrano l'efficacia di CLIP-Italian per l'estrazione e la classificazione zero-shot in italiano, ottenendo risultati migliori di un modello CLIP multilingue.",
keywords = "clip, contrastive, image, italian, language, multimodal, pretraining",
author = "Federico Bianchi and Giuseppe Attanasio and Raphael Pisoni and Silvia Terragni and Gabriele Sarti and Dario Balestri",
note = "Publisher Copyright: {\textcopyright} 2023 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).; 9th Italian Conference on Computational Linguistics, CLiC-it 2023 ; Conference date: 30-11-2023 Through 02-12-2023",
year = "2023",
language = "English",
series = "CEUR Workshop Proceedings",
publisher = "CEUR Workshop Proceedings (CEUR-WS.org)",
editor = "Federico Boschetti and Lebani, {Gianluca E.} and Bernardo Magnini and Nicole Novielli",
booktitle = "Proceedings of the 9th Italian Conference on Computational Linguistics",
}