Nel mondo dell’intelligenza artificiale, la carenza di dati di addestramento di alta qualità rappresenta una sfida crescente. OpenAI avrebbe adottato un approccio controverso per superare questo ostacolo: trascrivere e utilizzare oltre un milione di ore di video di YouTube per addestrare il suo modello di linguaggio GPT–4. Con molti esperti che si domandano se questo non violi il copyright di chi quei video li ha scritti e girati.
OpenAI: un milione di ore di video YouTube per addestrare GPT-4
Alla disperata ricerca di dati di addestramento, OpenAI avrebbe sviluppato il modello di trascrizione audio Whisper per trascrivere una vasta quantità di video di YouTube. Secondo il New York Times (tramite The Verge), OpenAI era consapevole della dubbia legalità di questa pratica, ma la considerava un “uso corretto”. Il giornale newyorkese, che ha fatto causa all’aziende per violazione del copyright della testata, riporta che il presidente Greg Brockman sarebbe stato personalmente coinvolto nella raccolta dei video utilizzati.
La portavoce Lindsay Held ha affermato che OpenAI cura set di dati “unici” per ciascun modello, utilizzando “numerose fonti tra cui dati disponibili al pubblico e partnership per dati non pubblici“. Ma l’articolo rivela che OpenAI aveva esaurito le scorte di dati utili nel 2021, spingendola a valutare la trascrizione di video, podcast e audiolibri di YouTube dopo aver esaminato altre risorse come codice di Github e contenuti di Quizlet.
Google ha commentato dicendo che ha “visto dei report non confermati” riguardo l’addestramento di GPT-4 su YouTube. Tuttavia, spiega che, per addestrare il proprio modello AI Gemini, avrebbe raccolto trascrizioni da YouTube in conformità con gli accordi con i creator, pur vietando lo “scraping o il download non autorizzato di contenuti”.
Fra AI e il diritto d’autore
La scelta di OpenAI di trascrivere e utilizzare video di YouTube per addestrare GPT-4 solleva interrogativi legali e etici. Sebbene l’azienda lo consideri un “uso corretto”, questa pratica potrebbe rappresentare una violazione del copyright e delle politiche di utilizzo di YouTube.
Mentre le aziende di IA cercano soluzioni per affrontare la carenza di dati di addestramento (oltre a OpenAI e Google, ci sono anche Meta e non solo), resta interessante capire come gestire i diritti di proprietà intellettuale e della privacy. Un tema di cui, siamo certi, si parlerà ancora.
- Belmonte, Luca (Autore)
Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API