fbpx
NewsTech

SAM, il nuovo tool di Meta: ecco cosa è capace di fare con le immagini

Meta ha introdotto il modello di Segment Anything (SAM), un progetto che mira alla segmentazione delle immagini. Si tratta del più grande set di dati di segmentazione mai realizzato, per abilitare un’ampia gamma di applicazioni e promuovere ulteriori ricerche sui modelli di base per la visione artificiale.

Segment Anything, il nuovo progetto Meta al servizio degli utenti

La segmentazione è l’identificazione dei pixel dell’immagine che appartengono a un oggetto. È un’attività fondamentale nella visione artificiale e viene utilizzata in un’ampia gamma di applicazioni, dall’analisi di immagini scientifiche all’editing di foto.

Tuttavia, la creazione di un modello di segmentazione accurato per attività specifiche richiede in genere un lavoro altamente specializzato da parte di esperti tecnici con accesso all’infrastruttura di formazione dell’IA e grandi volumi di dati interni accuratamente annotati.

L’obiettivo di Meta era quello di costruire un modello di base per la segmentazione delle immagini. Un modello prompt che viene addestrato su dati diversi e che può adattarsi a compiti specifici, analogamente a come viene utilizzato il prompt nei modelli di elaborazione del linguaggio naturale.

Però, i dati di segmentazione necessari per addestrare un tale modello non sono prontamente disponibili online o altrove, a differenza di immagini, video e testo, che sono abbondanti su Internet. Pertanto, con Segment Anything, Meta ha deciso di sviluppare contemporaneamente un modello di segmentazione generale e tempestivo e di utilizzarlo per creare un set di dati di segmentazione di scala senza precedenti.

Cosa può fare il modello Segment Anything: i domini di immagine

Il modello Segment Anything ha appreso una nozione generale di cosa sono gli oggetti. È in grado di generare maschere per qualsiasi oggetto in qualsiasi immagine o video, inclusi anche oggetti e tipi di immagine che non aveva incontrato durante l’addestramento.

Inoltre, il modello è abbastanza generale da coprire un’ampia gamma di casi d’uso e può essere utilizzato immediatamente su nuovi “domini” di immagini, che si tratti di foto subacquee o microscopia cellulare, senza richiedere ulteriore formazione (una capacità spesso definita trasferimento zero-shot) .

In futuro, potrebbe essere utilizzato per potenziare le applicazioni in numerosi domini che richiedono la ricerca e la segmentazione di qualsiasi oggetto in qualsiasi immagine.

Scopri Udemy, un’ampia selezione di corsi per poter utilizzare meglio i tuoi social

Il modello al servizio dell’intelligenza artificiale

Per la comunità di ricerca sull’intelligenza artificiale, il modello Segment Anything potrebbe diventare un componente per i sistemi di intelligenza artificiale più ampi e per una comprensione multimediale più generale del mondo, ad esempio, comprendere sia il contenuto visivo che quello testuale di una pagina web.

Il modello al servizio della realtà virtuale e aumentata

Il modello potrebbe essere utile anche per la realtà virtuale e aumentata. In che modo? Potrebbe consentire di selezionare un oggetto in base allo sguardo di un utente e quindi di “sollevarlo” in 3D. Per i creatori di contenuti, SAM può migliorare le applicazioni creative come l’estrazione di regioni di immagini per collage o editing video.

Meta pubblicita gioco dazzardo e1673628464789 1

Come funziona il modello Segment Anything

Il team di Meta ha fatto sì che SAM fosse in grado di restituire una maschera di segmentazione valida per qualsiasi prompt. Per prompt si intende dei punti in primo piano/sullo sfondo, una casella o maschera, testo a mano libera o, in generale, qualsiasi informazione che indichi cosa segmentare in un’immagine.

Il requisito di una maschera valida significa semplicemente che anche quando un prompt è ambiguo e potrebbe fare riferimento a più oggetti (ad esempio, un punto su una maglietta può indicare la maglietta o la persona che la indossa), l’output dovrebbe essere una maschera ragionevole per uno di quegli oggetti. Questa attività viene utilizzata per preaddestrare il modello e per risolvere attività generali di segmentazione a valle tramite prompt.

Con il SAM, la raccolta di nuove maschere di segmentazione è più veloce che mai. Con questo strumento, ci vogliono solo circa 14 secondi per annotare interattivamente una maschera.

Gli ingranaggi del motore dei dati

Meta ha creato un motore di dati per il set di dati SA-1B. Questo motore di dati ha tre “ingranaggi”. Nella prima marcia, il modello assiste gli annotatori, come descritto sopra. La seconda marcia è un mix di annotazione completamente automatica combinata con annotazione assistita, contribuendo ad aumentare la diversità delle maschere raccolte. L’ultima marcia del motore di dati è la creazione completamente automatica della maschera, che consente la scalabilità del set di dati.

Nell’elaborazione del linguaggio naturale e, più recentemente, nella visione artificiale, uno degli sviluppi più entusiasmanti è quello dei modelli di base in grado di eseguire l’apprendimento zero-shot e few-shot per nuovi set di dati e attività utilizzando tecniche di “suggerimento”. Ci siamo ispirati a questa linea di lavoro.

Il codificatore di immagini

Un codificatore di immagini produce un’incorporamento una tantum per l’immagine, mentre un codificatore leggero converte qualsiasi prompt in un vettore di incorporamento in tempo reale. Queste due fonti di informazioni vengono quindi combinate in un decodificatore leggero che prevede le maschere di segmentazione. Dopo che l’incorporamento dell’immagine è stato calcolato, SAM può produrre un segmento in soli 50 millisecondi a qualsiasi richiesta in un browser web.

Per addestrare il nostro modello, avevamo bisogno di una fonte di dati enorme e diversificata, che non esisteva all’inizio del nostro lavoro. Il set di dati di segmentazione che stiamo rilasciando oggi è il più grande fino ad oggi (di gran lunga). I dati sono stati raccolti utilizzando il modello. In particolare, gli annotatori hanno utilizzato SAM per annotare in modo interattivo le immagini, quindi i dati appena annotati sono stati utilizzati per aggiornare a loro volta SAM. Abbiamo ripetuto questo ciclo molte volte per migliorare in modo iterativo sia il modello che il set di dati.

Con SAM, la raccolta di nuove maschere di segmentazione è più veloce che mai. Con il nostro strumento, ci vogliono solo circa 14 secondi per annotare interattivamente una maschera. Il nostro processo di annotazione per maschera è solo 2 volte più lento rispetto all’annotazione dei riquadri di delimitazione, che impiega circa 7 secondi utilizzando le interfacce di annotazione più veloci.

Rispetto ai precedenti sforzi di raccolta dei dati di segmentazione su larga scala, il nostro modello è 6,5 volte più veloce dell’annotazione della maschera basata su poligono completamente manuale COCO e 2 volte più veloce del precedente più grande sforzo di annotazione dei dati, anch’esso assistito dal modello.

Il motore che genera i dati realizzato da Meta, al servizio di SAM

Il set di dati finale include oltre 1,1 miliardi di maschere di segmentazione raccolte su circa 11 milioni di immagini con licenza e che tutelano la privacy. SA-1B ha 400 volte più maschere rispetto a qualsiasi set di dati di segmentazione esistente e, come verificato da studi di valutazione umana, le maschere sono di alta qualità e diversità e in alcuni casi persino paragonabili in termini di qualità alle maschere dei precedenti set di dati molto più piccoli, annotati completamente manualmente.

Samsung Galaxy Book3 Laptop, 15.6" FHD, Intel Core i5-1335U...
  • Ottieni il massimo dalla tua giornata con il nuovo processore Intel Core di 13a generazione, che offre prestazioni...
  • Ideale per entrare in uno zaino e con un corpo compatto in alluminio che pesa meno di 1,6 kg, questo laptop potente è...
  • Grazie all’ampia gamma di porte integrate, ottieni le prese e la versatilità che stavi cercando: HDMI, slot microSD,...

Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API

Da non perdere questa settimana su Techprincess

 

🎮 Che impatto avranno le elezioni americane sui videogiochi?
🚘 I gadget più strani delle case automobilistiche
🇨🇳 Un gruppo di ricercatori cinesi ha sviluppato un modello di IA per uso militare basato su Llama di Meta

🔍 ChatGPT si aggiorna e ora naviga sul web
Ma lo sai che abbiamo un sacco di newsletter?
 
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
 
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
 
💸E trovi un po' di offerte interessanti su Telegram!

Autore

  • Roberta Maglie

    Amante del cinema, serie tv, tecnologia e video games, mi piace approfondire la cultura pop attraverso il battere delle mie dita sulla tastiera del MacBook. La laurea in Comunicazione mi ha dato la spinta per buttarmi nel mondo del giornalismo, dandomi così l’opportunità di riflettere sui temi più disparati.

    Visualizza tutti gli articoli

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button