Site icon Techprincess

CogVideoX: una vera rivoluzione nell’AI per la generazione di video

CogVideoX: una vera rivoluzione nell'AI per la generazione di video thumbnail

Ricercatori della Tsinghua University e di Zhipu AI hanno presentato CogVideoX, un modello open-source testo-video che minaccia di sconvolgere il panorama dell’AI dominato da startup come Runway, Luma AI e Pika Labs. Questa svolta, dettagliata in un recente articolo su arXiv, mette capacità avanzate di generazione di video nelle mani di sviluppatori di tutto il mondo.

Alla scoperta di CogVideoX

CogVideoX genera video di alta qualità e coerenti fino a sei secondi di lunghezza da prompt di testo. Il modello supera concorrenti noti come VideoCrafter-2.0 e OpenSora in base a più metriche, secondo i benchmark dei ricercatori.

La perla della corona del progetto, CogVideoX-5B, vanta 5 miliardi di parametri e produce video a risoluzione 720×480 a 8 fotogrammi al secondo. Anche se queste specifiche potrebbero non corrispondere all’avanguardia dei sistemi proprietari, la vera innovazione di CogVideoX è la sua natura open-source.

Come i modelli open-source stanno livellando il campo di gioco

Rendendo pubblico il loro codice e i pesi del modello, il team di Tsinghua ha effettivamente democratizzato una tecnologia che in precedenza era il dominio esclusivo di aziende tecnologiche ben finanziate. Questa mossa potrebbe accelerare i progressi nella generazione di video AI sfruttando il potere collettivo della comunità globale degli sviluppatori.

I ricercatori hanno raggiunto le impressionanti prestazioni di CogVideoX attraverso diverse innovazioni tecniche. Hanno implementato un 3D Variational Autoencoder (VAE) per comprimere efficacemente i video e sviluppato un “transformer esperto” per migliorare l’allineamento testo-video.

Il rilascio di CogVideoX rappresenta un cambiamento significativo nel panorama dell’AI. Le piccole aziende e gli sviluppatori individuali hanno ora accesso a funzionalità che in precedenza erano fuori dalla loro portata a causa dei vincoli di risorse. Questo livellamento del campo di gioco potrebbe innescare un’ondata di innovazione in settori che vanno dalla pubblicità e l’intrattenimento all’istruzione e la visualizzazione scientifica.

Offerta
PHILIPS 243V7QDSB Monitor 24" LED IPS FHD, 4 ms, 3 Side...
  • Tecnologia IPS: offre immagini dettagliate e ampi angoli di visione di 178 gradi, tecnologia flicker free
  • pannello IPS stabile sull'angolo di visione con tempo di risposta di 4 ms
  • Full HD, display opaco, compatibile con il montaggio a parete VESA 100x100, supporto staccabile, cornice ultra-sottile

Ultimo aggiornamento 2024-09-01 / Link di affiliazione / Immagini da Amazon Product Advertising API

Exit mobile version