Negli ultimi mesi riesce difficile tenere il passo dei giganti del tech che producono nuovi software di intelligenza artificiale o mettono sul mercato sempre nuovi e più competitivi modelli.
In questo ambito, Google è tra le aziende più solerti. In estate si sono diffusi i primi rumor intorno al software Gemini, che si diceva avesse già superato la fase di test.
Google Gemini era poi stato presentato lo scorso dicembre nelle sue tre versioni Nano, Pro e Ultra. E all’inizio di febbraio 2024, come era successo per il passaggio (e rebranding) da Twitter a X, ci siamo dovuti dimenticare di Bard: il nome dell’intelligenza artificiale dell’azienda di Mountain View sarebbe stato Gemini.
E adesso Google ha già annunciato la nuova versione del software, Gemini 1.5. Cosa sappiamo?
Gemini 1.5
L’annuncio di Gemini 1.5 è apparso in un lungo post pubblicato sul sito di Google nella giornata di giovedì 15 febbraio.
La nota contiene interventi di due figure apicali: il Ceo Sundar Pichai e il Ceo di Google DeepMind Demis Hassabis.
Scorpi la super offerta NordVPN – 63% di sconto
Leggiamo che i miglioramenti rispetto alla precedente versione appaiono notevoli. Paragonato a 1.0 Pro (versione intermedia, tra Nano e Ultra), Gemini 1.5 Pro assicura un miglioramento dell’87% nell’elaborazione di test, codice, immagini, audio e video. Le prestazioni si avvicinano a quelle di Gemini 1.0 Ultra.
Gemini 1.5 nel dettaglio
Gemini 1.5 si basa sulla nuova architettura Mixture-of-Experts (MoE), che permette di migliorare l’efficienza del software in fase di addestramento.
Non solo: MoE consente l’attivazione selettiva dei modelli. In concreto: quando viene inviato un determinato input al modello, l’elaborazione ne fa attivare solo una parte, riducendo i consumi e soprattutto i tempi di attesa.
La finestra di contesto in cui opera Gemini 1.5 Pro è di 128.000 token, quattro volte tanto quella di Gemini 1.0, che era di 32.000.
Sviluppatori e clienti cloud (che, come vedremo, possono già accedere a Gemini 1.5) hanno a disposizione una versione con una finestra di contesto di un milione di token. E Google ha fatto sapere di aver testato un context window addirittura da 10 milioni di token.
Ricordiamo che, semplificando, il token è il “peso” di una parola, di un segno interpuntivo o di uno spazio tra due parole. È, potremmo dire, l’unità di misura linguistica dei Large Language Model.
Più è ampia la finestra di contesto, maggiore è la capacità di elaborazione del software in risposta a ogni singolo comando dell’utente.
Le prestazioni
Facciamo qualche esempio. Gemini 1.5 Pro, tramite una sola richiesta dell’utente, è in grado di elaborare un’ora di video, 11 ore di audio, oltre 30.000 linee di codice e più di 700.000 parole.
Con un unico prompt, Gemini 1.5 può analizzare e riassumere un documento di 402 pagine della missione Apollo 11, o descrivere il film Sherlock Jr. di Buster Keaton (noto in Italia come La palla n° 13), della durata di 44 minuti.
Quando sarà disponibile
L’anteprima privata di Gemini 1.5 è accessibile agli sviluppatori tramite AI Studio e ai clienti cloud tramite Vertex AI.
In futuro (le date non sono nemmeno trapelate) verranno introdotti vari tipi di abbonamento per i clienti privati. Non si conoscono i tempi in cui saranno rese pubbliche le versioni dei software con finestre di contesto da diversi milioni di token.
- Di Bello, Bonaventura (Autore)
I commenti
Il Ceo di Google Sundar Pichai ha commentato l’annuncio di Gemini 1.5: “Gemini 1.5. Mostra notevoli miglioramenti in una serie di dimensioni e 1.5 Pro raggiunge una qualità paragonabile a 1.0 Ultra, utilizzando meno risorse di elaborazione.”
E ancora: “Finestre di contesto più lunghe ci mostrano la promessa di ciò che è possibile. Consentiranno funzionalità completamente nuove e aiuteranno gli sviluppatori a creare modelli e applicazioni molto più utili. Siamo entusiasti di offrire un’anteprima limitata di questa funzionalità sperimentale a sviluppatori e clienti aziendali.”
Demis Hassabis. Ceo di Google DeepMind, ha aggiunto: “Il primo modello Gemini 1.5 che rilasceremo per i primi test è Gemini 1.5 Pro. È un modello multimodale di medie dimensioni, ottimizzato per adattarsi a un’ampia gamma di attività e funziona a un livello simile a 1.0 Ultra, il nostro modello più grande fino a oggi. Introduce inoltre una caratteristica sperimentale rivoluzionaria nella comprensione del contesto lungo.
Mentre implementiamo l’intera finestra di contesto di 1 milione di token, stiamo lavorando attivamente alle ottimizzazioni per migliorare la latenza, ridurre i requisiti computazionali e migliorare l’esperienza dell’utente.”
Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API