fbpx
NewsTech

Harvard rilascia un dataset di libri pubblici per addestrare l’AI

L’Università di Harvard ha annunciato il rilascio di un imponente dataset contenente quasi un milione di libri di pubblico dominio per l’addestramento dell’AI. Questo archivio digitale, alimentato anche dai fondi di Microsoft e OpenAI, sarà liberamente accessibile per l’addestramento di modelli linguistici di grandi dimensioni e altri strumenti di intelligenza artificiale.

Harvard annuncia un dataset di un milione di libri per l’addestramento dell’AI

Il progetto, nato dalla neonata Institutional Data Initiative di Harvard, ha ricevuto il sostegno finanziario di colossi tecnologici come Microsoft e OpenAI. Il dataset comprende opere digitalizzate nell’ambito del progetto Google Books, ormai libere da vincoli di copyright.

Con una mole di dati cinque volte superiore al controverso dataset Books3, utilizzato per addestrare modelli AI come Llama di Meta, l’archivio di Harvard spazia attraverso generi, epoche e lingue diverse. Accanto ai classici di Shakespeare, Charles Dickens e Dante, trovano spazio anche oscuri manuali di matematica in ceco e dizionari tascabili in gallese.

harvard dataset libri pubblici per addestramento ai

Greg Leppert, direttore esecutivo dell’Institutional Data Initiative, descrive il progetto come un tentativo di livellare il campo di gioco. L’obiettivo è fornire al pubblico, inclusi i piccoli attori del settore AI e i ricercatori indipendenti, l’accesso a contenuti altamente curati, solitamente appannaggio esclusivo dei giganti tecnologici. E di farlo senza violare il diritto d’autore.

Leppert sottolinea come il dataset sia stato sottoposto a un rigoroso processo di revisione. Questa attenzione alla qualità lo rende una risorsa preziosa per lo sviluppo di modelli di intelligenza artificiale, evitando quello che in gergo si definisce “inquinamento del dataset”.

Il direttore paragona il potenziale impatto di questo dataset pubblico a quello di Linux nel mondo dei sistemi operativi. In altre parole, sebbene le aziende dovranno comunque utilizzare dati di addestramento aggiuntivi per differenziare i propri modelli, potranno partire da una base di partenza solida — e gratuita.

Offerta

Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API

Da non perdere questa settimana su Techprincess

 

🎁 Guida ai Regali di Natale 2024
🎵 Spotify Unwrapped: quanto guadagnano davvero i tuoi artisti preferiti?
🎄Quale iPhone conviene acquistare a Natale 2024?

🚗 Ma avere un’auto elettrica è da privilegiati? Cosa dicono i costi
📰 Ma lo sai che abbiamo un sacco di newsletter?
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
💸E trovi un po' di offerte interessanti su 
Telegram!

 

Source
Wired (US)

Autore

  • Stefano Regazzi

    Il battere sulla tastiera è la mia musica preferita. Nel senso che adoro scrivere, non perché ho una playlist su Spotify intitolata "Rumori da laptop": amo la tecnologia, ma non fino a quel punto! Lettore accanito, nerd da prima che andasse di moda.

    Visualizza tutti gli articoli

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button