Gli Usa investono centinaia di miliardi su nuovi progetti AI, come Stargate. La Cina, con cifre più o meno veritiere e tecniche più o meno discutibili, sembra ottenere risultati paragonabili a quelli americani utilizzando molte meno risorse. L’Europa è in ritardo, ma non si può dire che sia ferma: oltre alle iniziative delle sue startup, anche la Commissione prova a dare un indirizzo più unitario, e in questi giorni ha presentato i finanziamenti al progetto OpenEuroLLM. Un progetto che unisce aziende e istituti di ricerca per sviluppare modelli linguistici open-source di nuova generazione. E che fa parte di una strategia più ampia, come Fortune Italia è in grado di raccontare, che prevede un impegno totale da parte dell’Ue che supera i 50 mln di euro.
Ma quelli europei non sono gli unici fondi a disposizione dell’iniziativa.
Cosa è OpenEuroLLM
Partiamo da OpenEuroLLM. Si tratta di un consorzio di 20 istituzioni di ricerca, aziende e centri EuroHPC europei di spicco (come il Cineca di Bologna), coordinato da Jan Hajič (Charles University, Repubblica Ceca) e co-guidato da Peter Sarlin (Ceo di Silo AI, Finlandia). Il consorzio costruirà una famiglia di modelli linguistici fondazionali, “multilingue e ad alte prestazioni” che potranno essere usati per applicazioni commerciali, industriali e nei servizi pubblici.
Lo stesso Hajič, linguista computazionale ed ex direttore dell’Istituto di linguistica formale e applicata dell’Università di Praga, ha spiegato a Fortune Italia che “l’approccio mira a risolvere problemi oggi comuni ai grandi modelli di intelligenza artificiale, come risposte errate che fanno riferimento a sistemi fiscali statunitensi invece che a quelli europei”.
Anche se il finanziamento è relativamente modesto rispetto a iniziative come quelle americane, “siamo convinti di poter sviluppare modelli competitivi”, dice il professore. “Abbiamo già accesso a dati fondamentali, e il nostro approccio tecnico punta a ottenere risultati anche con un’infrastruttura di calcolo più limitata. Inoltre, lavoriamo con metodi innovativi per ottimizzare il training dei modelli. L’obiettivo è sviluppare modelli linguistici che possano essere facilmente utilizzati anche da piccole aziende europee, con applicazioni in vari settori, dalla medicina all’estrazione di informazioni. Tutto sarà open source e conforme alle normative europee”.
Questo ultimo punto è ancora più importante, considerato che le linee guida sugli usi più rischiosi dell’intelligenza artificiale disciplinati dall’AI Act sono appena state pubblicate.
Tra i partner un solo italiano
Gli ingredienti per un buon risultato ci sono: come dice il suo coordinatore questa nuova famiglia di Llm nascerà dal supporto di precedenti progetti europei e dell’esperienza dei partner, “inclusi ampi repository di dati di alta qualità e LLM pilota sviluppati in passato”, spiega la Commissione.
E poi ci sono alcuni dei migliori attori AI del continente, anche se non tutti (e solo uno italiano): Aleph Alpha, protagonista del settore in Germania, il CSC della Finlandia, che ospita uno dei supercomputer più potenti del mondo come il Cineca di Bologna, che è la casa di Leonardo, unico rappresentante dell’Italia nel progetto. Nel consorzio c’è anche la Lights On francese, che recentemente è diventata la prima società Gen AI quotata in Borsa in Europa.
I numeri di OpenEuroLLM
Su quanti soldi potrà contare il progetto? Al consorzio andranno i fondi europei del programma Digital Europe. Come specificato dalla Commissione, il bilancio totale è di 37,4 mln, di cui 20,6 provenienti dal programma. Inoltre, Bruxelles ha assegnato al consorzio il marchio della piattaforma per le tecnologie strategiche per l’Europa (STEP).
È il primo progetto finanziato dal programma Europa digitale a ricevere il marchio STEP, l’iniziativa per la competitività industriale europea che facilita l’accesso ai fondi e rafforza il profilo di investimento dei progetti che lo ricevono.
Le tre iniziative europee per gli Llm
OpenEuroLlm fa parte di un trittico di iniziative. La seconda è il progetto più piccolo dei tre (circa 4 mln). Un progetto di coordinamento chiamato ALT-EDIC4EU, che ha il compito di assicurare il corretto andamento delle iniziative sugli Llm.
L’altro progetto, ancora non ufficialmente annunciato ma che dovrebbe avere a disposizione altri fondi europei, si dovrebbe concentrare sull’adattamento e sull’istruzione dei modelli linguistici per ottenere capacità conversazionali e il fine tuning per applicazioni specifiche.
Tra tutti e tre i progetti, i fondi europei dovrebbero così superare i 50 mln di euro.
La potenza degli LLM europei
Sulla potenza dei modelli sviluppati da OpenEuroLLm e il confronto con i giganti USA, il linguista dell’Università di Praga dice che “oggi potremmo ottenere qualità simili con modelli più piccoli. È un aspetto che dobbiamo ancora discutere nel gruppo tecnico”.
La cornice open source del progetto
I modelli saranno sviluppati nel rispetto del quadro normativo europeo collaborando con comunità open-source e open science come LAION, open-sci e OpenML, oltre a esperti riuniti nell’Open Strategic Partnership Board del progetto. “OpenEuroLLM garantirà che modelli, software, dati e valutazioni siano completamente aperti e possano essere adattati e ottimizzati per specifiche esigenze industriali e del settore pubblico. Questi modelli multilingue ad alte prestazioni preserveranno la diversità linguistica e culturale, consentendo alle aziende europee di sviluppare prodotti e servizi di qualità nell’era dell’AI”, secondo la nota stampa dell’iniziativa.
Quante persone lavorano a OpenEuroLLM?
Tra gli altri dettagli forniti dal professore che coordina il progetto sugli Llm ‘fondazionali’: il consorzio può contare su circa 80 persone distribuite tra 20 partner, anche se non tutte a tempo pieno.
La roadmap di OpenEuroLLM
Il progetto non ha una roadmap definita, ma le prime idee (sviluppate mesi prima dell’annuncio del funding da parte dell’Ue) erano di arrivare a un primo modello intermedio nel 2026, ma secondo il professore è possibile che versioni parziali vengano rese disponibili prima.
Sull’ecosistema di partner, Hajic precisa che sarà possibile, formalmente, coinvolgere nuovi membri, “ma il budget è già definito. Eventuali nuovi partner dovrebbero finanziare autonomamente la propria partecipazione”.
L’interazione con le AI Factory
Sull’intelligenza artificiale l’altra grande iniziativa europea è quella delle AI factory, con cui il nuovo progetto si interfaccerà, utilizzando la capacità computazionale dei supercomputer coinvolti nelle 7 ‘fabbriche’ europee di intelligenza artificiale. Tra quelle fabbriche c’è proprio il Cineca. “Speriamo di poter utilizzare il nuovo hardware che sarà installato nelle sette AI factory. È una risorsa importante perché i supercomputer EuroHPC sono molto richiesti in questo momento” dice Hajič.
Il problema della frammentazione
Nonostante l’iniziativa europea, rimane la frammentazione dello sviluppo dei modelli linguistici, con diverse iniziative separate solo in Italia. “È vero, la frammentazione è stata un problema”, conclude il professore. “Questo progetto però è più finanziato rispetto al passato. Stiamo ricevendo molte richieste di collaborazione da sviluppatori nazionali. Anche se non possiamo collaborare su vasta scala, possiamo almeno condividere esperienze e dati per migliorare i modelli”.
La lista completa dei partner:
Università e organizzazioni di ricerca:
•Charles University, Institute of Formal and Applied Linguistics, Repubblica Ceca (coordinatore)
•Alliance for Language Technologies EDIC (ALT-EDIC), Francia
•Eindhoven University of Technology, Paesi Bassi
•ELLIS Institute Tübingen, Germania
•Fraunhofer IAIS, Germania
•Research Center Juelich, Germania
•Lindholmen Science Park (AI Sweden), Svezia
•University of Helsinki, Finlandia
•University of Oslo, Norvegia
•University of Turku, Finlandia
•University of Tübingen (Tübingen AI Center), Germania
Aziende:
•Silo GenAI (AMD Silo AI), Finlandia (co-leader)
•Aleph Alpha Research, Germania
•ellamind, Germania
•LightOn, Francia
•Prompsit Language Engineering, Spagna
Centri EuroHPC:
•Barcelona Supercomputing Center, Spagna
•Cineca Interuniversity Consortium, Italia
•CSC – IT Center for Science, Finlandia
•SURF, Paesi Bassi