Arriva il primo Natural Language Processing in italiano

Il progetto Minerva, lanciato dall’Università La Sapienza, ha realizzato il primo modello linguistico per Intelligenza artificiale in italiano, basato su un database di 500 miliardi di parole.
Il progetto, annunciato il 23 aprile sul sito dell’Università la Sapienza di Roma, è stato realizzato da un gruppo di ricerca di Natural Language Processing, composto da 15 studenti e diretto dal professore di Ingegneria Informatica, Automatica e Gestionale Roberto Navigli presso il dipartimento ‘Antonio Ruberti’, all’interno di FAIR (Future Artificial Intelligence Research), grazie ai fondi del PNRR e la collaborazione di CINECA, che ha reso disponibile il supercomputer Leonardo. “È il primo sforzo di questo tipo in Italia, spiega Navigli, fatto dando in pasto al modello le parole provenienti dal web, la più grande raccolta di testi al mondo, in cui si trova di tutto; per questo nelle fasi successive bisognerà eseguire una fase di allineamento che riduca l’uso di parole scorrette e pregiudizi di pensiero”.

Cosa è un modello linguistico

“Un modello linguistico è un sistema di apprendimento automatico, un software di AI che ha come obiettivo primario quello di produrre un testo che sia il più probabile, rispetto alla parola o alla frase che è stata inserita. Questo non significa saper fare un riassunto o rispondere ad una domanda, perché non è questo il compito di un modello linguistico fondazionale”, spiega Navigli, sottolineando la differenza con il più noto ChatGPT. Il modello funzionale come Minerva è alla base dell’ulteriore sviluppo di un software come ChatGPT, che appartiene, spiega Navigli, a “modelli linguistici adattati a ricevere ed eseguire istruzioni in base alla richiesta”.

L’importanza per lo sviluppo dell’Intelligenza Artificiale Made in Italy

“Quello che mi sta più a cuore da professore universitario è che questo sforzo ingegneristico, crei il know-how in Italia, competenze che speriamo restino qui e questa è già una ragione che da sola vale tutta l’impresa”, aggiunge Navigli, convinto che “avere un modello addestrato solo su dati italiani e non su traduzioni automatiche inglese-italiano, significa avere un linguaggio molto più naturale e non solo come espressione della cultura italiana. Inoltre, l’italiano, come lingua principe, permette di comprendere meglio sfumature ed espressioni più proprie della lingua italiana, come modi di o usi regionali”.

L’italianità dei modelli Minerva li rendono una risorsa preziosa per aziende e sviluppatori interessati a sfruttare le potenzialità dell’Ai. Aggiunge Navigli: “In questi giorni stiamo lanciando una serie di modelli basati su Minerva che svolgono un solo task per riassunti automatici ed in futuro per traduzione automatica: saranno modelli aperti ed utilizzabili gratis anche per scopi commerciali, nativi per la prima volta in lingua italiana”.