fbpx
NewsTech

OpenAI addestra GPT-4 con oltre un milione di ore di video YouTube

Nel mondo dell’intelligenza artificiale, la carenza di dati di addestramento di alta qualità rappresenta una sfida crescente. OpenAI avrebbe adottato un approccio controverso per superare questo ostacolo: trascrivere e utilizzare oltre un milione di ore di video di YouTube per addestrare il suo modello di linguaggio GPT4. Con molti esperti che si domandano se questo non violi il copyright di chi quei video li ha scritti e girati.

OpenAI: un milione di ore di video YouTube per addestrare GPT-4

Alla disperata ricerca di dati di addestramento, OpenAI avrebbe sviluppato il modello di trascrizione audio Whisper per trascrivere una vasta quantità di video di YouTube. Secondo il New York Times (tramite The Verge), OpenAI era consapevole della dubbia legalità di questa pratica, ma la considerava un “uso corretto”. Il giornale newyorkese, che ha fatto causa all’aziende per violazione del copyright della testata, riporta che il presidente Greg Brockman sarebbe stato personalmente coinvolto nella raccolta dei video utilizzati.

La portavoce Lindsay Held ha affermato che OpenAI cura set di dati “unici” per ciascun modello, utilizzando “numerose fonti tra cui dati disponibili al pubblico e partnership per dati non pubblici“. Ma l’articolo rivela che OpenAI aveva esaurito le scorte di dati utili nel 2021, spingendola a valutare la trascrizione di video, podcast e audiolibri di YouTube dopo aver esaminato altre risorse come codice di Github e contenuti di Quizlet.

openai dall e modifica immagini chatgpt min

Google ha commentato dicendo che ha “visto dei report non confermati” riguardo l’addestramento di GPT-4 su YouTube. Tuttavia, spiega che, per addestrare il proprio modello AI Gemini, avrebbe raccolto trascrizioni da YouTube in conformità con gli accordi con i creator, pur vietando lo “scraping o il download non autorizzato di contenuti”.

Fra AI e il diritto d’autore

La scelta di OpenAI di trascrivere e utilizzare video di YouTube per addestrare GPT-4 solleva interrogativi legali e etici. Sebbene l’azienda lo consideri un “uso corretto”, questa pratica potrebbe rappresentare una violazione del copyright e delle politiche di utilizzo di YouTube.

Mentre le aziende di IA cercano soluzioni per affrontare la carenza di dati di addestramento (oltre a OpenAI e Google, ci sono anche Meta e non solo), resta interessante capire come gestire i diritti di proprietà intellettuale e della privacy. Un tema di cui, siamo certi, si parlerà ancora.

Da non perdere questa settimana su Techprincess

🍎Nuovi iPad e accessori: cosa aspettarsi dall’evento Apple del 7 maggio
🛒 Le migliori offerte della Amazon Gaming Week
🎮
L’emulatore Nintendo Delta sta per arrivare su iPad
🪪Social card “Dedicata a te”:cos’è e come si potrà utilizzare il bonus da 460 euro
✒️ La nostra imperdibile newsletter Caffellattech! Iscriviti qui 
🎧 Ma lo sai che anche Fjona ha la sua newsletter?! Iscriviti a SuggeriPODCAST!
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
💌 Risolviamo i tuoi problemi di cuore con B1NARY
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
💸E trovi un po' di offerte interessanti su Telegram!

Via
The Verge
Source
The New York Times

Stefano Regazzi

Il battere sulla tastiera è la mia musica preferita. Nel senso che adoro scrivere, non perché ho una playlist su Spotify intitolata "Rumori da laptop": amo la tecnologia, ma non fino a quel punto! Lettore accanito, nerd da prima che andasse di moda.

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button