fbpx
NewsTech

Dai podcast agli assistenti vocali: come la voce sta rivoluzionando la tecnologia

Se ad un uomo di inizio ‘800 avessimo detto: “un giorno potrai accendere la lampadina con la voce”, probabilmente ci avrebbe preso per pazzi. In effetti da primitivo strumento di comunicazione tra esseri umani, la voce ha ricoperto per lungo tempo un elemento non sempre centrale nella tecnologia, almeno fino a pochi anni fa. Poi il boom: podcast, assistenti vocali, social network dedicati, possibilità di inviare messaggi audio e intelligenze artificiali in grado di riconoscere e trascrivere quanto detto a voce. Ma com’è avvenuta questa rivoluzione vocale? E dove ci porterà?

Potremmo individuare l’anno zero della rivoluzione vocale, quasi come certe tradizioni religiose, nel 2011: anno in cui nacque Siri (su iPhone 4S). Prima di arrivare a ciò la voce era utilizzata molto di rado sul web e in quello che avremmo imparato a chiamare IoT (Internet of Things). Il mezzo vocale era infatti una forma che, maggiormente, era relegata alla fruizione di radio in digitale, musica e di accompagnamento a contenuti video. Insomma tutti elementi già presenti nella vita quotidiana al di fuori della rete. Ma soprattutto era un mezzo passivo. Era essenzialmente la macchina che comunicava con noi, o al limite che ci permetteva di dialogare con altri utenti. Non vi era quindi alcun dialogo uomo-macchina.

Voce e tecnologia: cenni storici

Sorprendentemente il primo utilizzo della voce come strumento per comunicare con una macchina risale al 1911 con Radio Rex. Si trattava essenzialmente di un giocattolo formato da un cagnolino meccanico e una cuccia. Chiamando il cane per nome – Rex appunto – era possibile farlo uscire brevemente dalla cuccia. Dopo la seconda guerra mondiale diversi ricercatori, soprattutto alla IBM, cominciarono a studiare la tecnologia vocale, senza però particolari risultati in termini di implementazione. Degno di nota è forse solo il Picturephone, nel 1962: il primo apparecchio per videochiamate al mondo. Tuttavia era troppo macchinoso e costoso per essere un successo (15 minuti di “videocall” arrivavano a costare circa 80 dollari).

Le videochiamate – che comunque mantenevano il mezzo vocale legato al contenuto visivo, e restavano una forma di comunicazione tra soli esseri umani – ebbero il loro apice con l’arrivo del nuovo millennio, con app come MSN Messenger e Skype. Il dato è significativo anche dell’evoluzione del mezzo web. Con il primo internet (web 1.0) la rete era infatti composta per lo più da pagine statiche dedicate alla lettura. Gli anni 2000 avrebbero poi spianato il terreno (con il web 2.0) all’era dell’iperconnettività. E arriviamo quindi al famoso anno 0: il 2011.

In soli 11 anni la voce ha assunto, seppur lentamente, un ruolo predominante nella fruizione della rete e della tecnologia. Le primitive e limitate funzionalità del primo Siri (poteva al massimo consultare il meteo e far partire chiamate) saranno le basi per la nuova tecnologia di apprendimento vocale che farà la fortuna dei primi dispositivi Amazon. Nel 2014 arriverà infatti il primo assistente vocale fisico: Echo. Era quindi appena nata Alexa, che oggi abita le case di milioni di utenti nel mondo.

Se Siri aveva spalancato le porte ad una nuova era degli assistenti virtuali nel 2011, due anni dopo WhatsApp reinventerà il concetto di messaggistica con l’introduzione dei messaggi vocali istantanei.

L’importanza della voce come mezzo espressivo

Ma perchè l’essere umano preferisce usare la voce? La risposta più banale sarebbe “per comodità e immediatezza”. Questa risposta sarebbe anche corretta, ma in realtà alla base c’è molto molto altro. Come qualsiasi buon attore può insegnarci, la voce rappresenta uno strumento unico per veicolare emozioni e messaggi attraverso sfumature, inflessioni e intenzioni.

Certo con una emoticon possiamo sottolineare uno stato d’animo, ma è solo con la voce che si riesce davvero ad empatizzare. Alla base del successo della messaggistica vocale c’è proprio questa primitiva esigenza di raccontare le emozioni, più che le storie e gli aneddoti: il contenitore che valorizza il contenuto. Riuscire quindi a creare una sorta di empatia con la macchina, seppur virtuale e fittizia, rassicura gli utenti e li fa sentire compresi.

La rivoluzione vocale: Podcast, Clubhouse, Spaces di Twitter e audiolibri

Volendoci slegare dal rapporto uomo-macchina, e concentrandoci sulla voce come strumento del web per veicolare messaggi, possiamo notare come gli ultimi anni siano stati gli anni della voce. La tecnologia sempre e ovunque, a portata di tasca, ha favorito la creazione di nuovi format, come ad esempio i podcast: una versione evoluta e smart dei più lenti e complessi programmi radiofonici. E poi le nuove forme artistiche. Pensiamo alla possibilità di ascoltare un libro letto e interpretato da un attore, con intensità espressiva che restituisce esattamente ciò che l’autore avrebbe voluto comunicare: gli audiolibri.

In pieno lockdown 2020, quando erano proprio l’empatia e la vicinanza con i nostri simili che più mancavano, si è registrato un boom di download di app di videocall. E non solo, sugli iPhone di mezzo mondo cominciava a comparire un’app: Clubhouse. Il primo social network interamente dedicato alle discussioni vocali. Niente testo, niente foto e niente video. Solo ed esclusivamente la voce.

L’incredibile popolarità di Clubhouse si è esaurita nel giro di un anno circa, ma la piattaforma aveva spalancato le porte, così come Siri fece nel 2011, ad un nuovo mondo. Infatti nel 2021 Twitter ha lanciato gli Spaces: chatroom vocali che riprendono il concetto di Clubhouse. Ed è ironico che a farlo sia la stessa piattaforma che ha sempre prediletto i testi brevi, con il celebre limite dei 280 caratteri.

La voce come forma di accessibilità: lo speech recognition

Come spesso accade in ambito tech però, una nuova tecnologia è sempre la base per un’altra che nascerà. Le avanzate intelligenze artificiali (IA) in grado di comprendere i messaggi degli umani hanno rivoluzionato molti aspetti della vita quotidiana, anche in termini di accessibilità.

Le tecnologie di speech recognition sono oggi in grado di riconoscere un messaggio vocale e trascriverlo. Uno strumento che può abbattere numerose barriere comunicative, soprattutto per i non udenti. Il ventaglio di possibilità in termini di accessibilità, in tal senso, si estende a tutta la vita quotidiana perennemente connessa: dalla messaggistica ai videogame, passando per la fruizione di contenuti letterari (basti pensare, come sopra, agli audiolibri).

Recentemente l’Università dell’Illinois (UIUC) ha avviato una collaborazione con colossi tech come Amazon, Apple, Google, Meta, Microsoft. Alla base della partnership c’è progetto chiamato Speech Accessibility, che ha come obiettivo quello di migliorare il riconoscimento vocale per gli utenti con disabilità. Speech Accessibility si rivolge a persone con la malattia di Lou Gehrig (SLA), il Parkinson, la paralisi cerebrale, la sindrome di Down e altre condizioni che potrebbero limitare le capacità comunicative degli utenti.

Il presente e il futuro della voce nella tecnologia

Attualmente le tecnologie di riconoscimento vocale permettono diverse operazioni che semplificano la vita degli utenti. La gamma di possibilità abbraccia sia la produttività che il tempo libero. È ora possibile cambiare stazione radio in auto senza staccare le mani dal volante, o effettuare ricerche per studi senza dover digitare manualmente le parole chiave. E poi le smart home: basta una parola per azionare aspirapolveri, luci di casa, lavastoviglie e tutto l’ecosistema connesso. Ma quali sono le possibilità per il futuro?

Le recenti novità annunciate da Google Assistant ci confermano che i trend tech continueranno ad andare in una direzione sempre più vocale. Le IA sull’apprendimento della voce potrebbero presto prendere il sopravvento anche nell’industria cinematografica (cosa che in realtà sta già avvenendo con i deepfake).

Interessante sarà poi capire come e se le macchine riusciranno a comprendere le sfumature della voce. Una tecnologia avanzata in tal senso potrebbe essere in grado di rilevare gli stati d’animo dell’utente, fornendo anche supporto psicologico. I robot potrebbero quindi arrivare ad empatizzare con gli esseri umani.

Infine, ultimo ma non ultimo, c’è il metaverso: attore imprescindibile quando si parla del futuro. Le possibilità sono pressochè infinite per chi saprà coglierle. Anzi, per chi saprà far sentire la propria voce.

Echo (4ª generazione) | Altoparlante intelligente Wi-Fi e...
  • SUONO DI QUALITÀ PREMIUM - Echo ti offre alti nitidi, medi dinamici e bassi profondi, per un suono ricco e definito che...
  • CONTROLLA LA MUSICA CON LA TUA VOCE - Ascolta brani in streaming da Amazon Music, Apple Music, Spotify, Deezer e altri...
  • DARE VITA ALLA TUA CASA INTELLIGENTE È SEMPLICE – Con l'hub integrato, è facile configurare i dispositivi Zigbee e...

Da non perdere questa settimana su Techprincess

✒️ La nostra imperdibile newsletter Caffellattech! Iscriviti qui 
 
🎧 Ma lo sai che anche Fjona ha la sua newsletter?! Iscriviti a SuggeriPODCAST!
 
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
 
💌 Risolviamo i tuoi problemi di cuore con B1NARY
 
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
 
💸E trovi un po' di offerte interessanti su Telegram!

Marco Brunasso

Scrivere è la mia passione, la musica è la mia vita e Liam Gallagher il mio Dio. Per il resto ho 30 anni e sono un musicista, cantante e autore. Qui scrivo principalmente di musica e videogame, ma mi affascina tutto ciò che ha a che fare con la creazione di mondi paralleli. 🌋From Pompei with love.🧡

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button