fbpx
NewsTech

CogVideoX: una vera rivoluzione nell’AI per la generazione di video

Ricercatori della Tsinghua University e di Zhipu AI hanno presentato CogVideoX, un modello open-source testo-video che minaccia di sconvolgere il panorama dell’AI dominato da startup come Runway, Luma AI e Pika Labs. Questa svolta, dettagliata in un recente articolo su arXiv, mette capacità avanzate di generazione di video nelle mani di sviluppatori di tutto il mondo.

Alla scoperta di CogVideoX

CogVideoX genera video di alta qualità e coerenti fino a sei secondi di lunghezza da prompt di testo. Il modello supera concorrenti noti come VideoCrafter-2.0 e OpenSora in base a più metriche, secondo i benchmark dei ricercatori.

La perla della corona del progetto, CogVideoX-5B, vanta 5 miliardi di parametri e produce video a risoluzione 720×480 a 8 fotogrammi al secondo. Anche se queste specifiche potrebbero non corrispondere all’avanguardia dei sistemi proprietari, la vera innovazione di CogVideoX è la sua natura open-source.

Come i modelli open-source stanno livellando il campo di gioco

Rendendo pubblico il loro codice e i pesi del modello, il team di Tsinghua ha effettivamente democratizzato una tecnologia che in precedenza era il dominio esclusivo di aziende tecnologiche ben finanziate. Questa mossa potrebbe accelerare i progressi nella generazione di video AI sfruttando il potere collettivo della comunità globale degli sviluppatori.

I ricercatori hanno raggiunto le impressionanti prestazioni di CogVideoX attraverso diverse innovazioni tecniche. Hanno implementato un 3D Variational Autoencoder (VAE) per comprimere efficacemente i video e sviluppato un “transformer esperto” per migliorare l’allineamento testo-video.

Il rilascio di CogVideoX rappresenta un cambiamento significativo nel panorama dell’AI. Le piccole aziende e gli sviluppatori individuali hanno ora accesso a funzionalità che in precedenza erano fuori dalla loro portata a causa dei vincoli di risorse. Questo livellamento del campo di gioco potrebbe innescare un’ondata di innovazione in settori che vanno dalla pubblicità e l’intrattenimento all’istruzione e la visualizzazione scientifica.

Offerta
PHILIPS 243V7QDSB Monitor 24" LED IPS FHD, 4 ms, 3 Side...
  • Tecnologia IPS: offre immagini dettagliate e ampi angoli di visione di 178 gradi, tecnologia flicker free
  • pannello IPS stabile sull'angolo di visione con tempo di risposta di 4 ms
  • Full HD, display opaco, compatibile con il montaggio a parete VESA 100x100, supporto staccabile, cornice ultra-sottile

Ultimo aggiornamento 2024-09-01 / Link di affiliazione / Immagini da Amazon Product Advertising API

Da non perdere questa settimana su Techprincess

🛫 Wizz Air lancia “All You Can Fly”: voli illimitati a partire da €599
 
🤖Google lancia Gemini Live: l’assistente AI diventa il centro dell’esperienza Android
📅5 app di dating che non pensavi esistessero
 
🎙️Ma lo sai che anche Fjona ha la sua newsletter?! Iscriviti a SuggeriPODCAST!
 
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
 
💌 Risolviamo i tuoi problemi di cuore con B1NARY
 
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
 
💸E trovi un po' di offerte interessanti su Telegram!

ram!

Autore

  • Daniele Cicarelli

    Indigente giramondo con la grande passione per i videogiochi, l'Arte e tutte le storie Fantasy e Sci-Fi che parlano di mondi alternativi senza zanzare. Fermo sostenitore dell'innovazione, del progresso tecnologico e della superiorità del Tipo Erba. Dalla parte dei Villains dal 1991.

    Visualizza tutti gli articoli

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button