Common Voice: dona la tua voce per addestrare il software di riconoscimento vocale di Mozilla

By Redazione On Dic 31, 2020

La maggior parte del software e dei dati vocali che alimentano gli assistenti personali presenti nei nostri dispositivi intelligenti, appartiene ad aziende e organizzazioni di tipo privato.

Ottenere l’accesso a dati di buona qualità richiede tempo e denaro: di conseguenza, il costo dello sviluppo del riconoscimento vocale e di altri software che si basano sui dati vocali è diventato proibitivo, dando ad alcune aziende il monopolio di questi servizi. Da parte di queste aziende, c’è anche poca trasparenza su quali dati sono stati utilizzati per sviluppare gli assistenti personali intelligenti, il che significa che alcune popolazioni possono rimanere indietro per quel che riguarda la quantità e l’affidabilità dei servizi basati sul riconoscimento vocale (come Amazon Alexa o Google Home, giusto per citare i più diffusi). Queste limitazioni rendono la tecnologia meno efficace per alcuni gruppi, come i non madrelingua con accenti o per le lingue parlate da piccole popolazioni.

Puoi ascoltare il contenuto di questo articolo su Spreaker

Cos’è Common Voice

Le principali tecnologie vocali del mercato sono alimentate da algoritmi di deep learning, che possono richiedere fino a 10.000 ore di dati convalidati per procedere con l’addestramento.

Common Voice è un’iniziativa di Mozilla, che affronta questa sfida sviluppando il primo set di dati vocali open source al mondo e un motore di riconoscimento vocale, chiamato DeepSpeech. Si tratta di un motore open source di sintesi vocale integrato (la prima versione di Deep Speech è stata rilasciata da Mozilla nel 2017) che può essere eseguito in tempo reale su dispositivi che vanno da un Raspberry Pi 4 fino ad arrivare ad un server GPU ad alta potenza. Tutti la documentazione relativa al progetto DeepSpeech può essere consultata a questo link.

Ma come funziona in dettaglio Common Voice? Il concetto è semplice: Common Voice raccoglie contributi vocali attraverso una piattaforma online in cui gli utenti sono invitati a leggere alcune brevi frasi che compaiono sullo schermo, registrando le parole pronunciate. Tutte le frasi provengono da testi che sono sotto una licenza Creative Commons, per garantire che possano essere liberamente riutilizzate in futuro da ricercatori e imprenditori.

Gli utenti possono anche ascoltare e convalidare i contributi registrati da altri membri della comunità, per garantire che i dati siano di qualità sufficientemente elevata per addestrare un algoritmo di intelligenza artificiale.

Dal punto di vista numerico, nel momento di scrittura di questo articolo il sito ufficiale riporta che la comunità italiana ha registrato più di 200 ore di materiale (di cui circa 160 ore convalidate).

Quali sono gli obiettivi di Common Voice?

Lo scopo del progetto Common Voice è garantire che i dati utilizzati per addestrare gli strumenti di riconoscimento vocale rappresentino la piena diversità delle voci di persone reali.

Ogni data entry contiene un file audio con il testo collegato, così come tutti i metadati associati al contributore, se disponibile. Rendendo i set di dati aperti, Mozilla sta creando opportunità per lo sviluppo di tecnologie vocali che possano coinvolgere una gamma più ampia di ricercatori, sviluppatori e attori del settore pubblico.

Questa maggiore accessibilità può aiutare ad incentivare l’innovazione e stimolare una sana competizione per lo sviluppo di strumenti migliori.

Intervista a Damiano, volontario di Mozilla Italia

Per capire di più sul contributo italiano al progetto Common Voice, abbiamo fatto alcune domande a Damiano Gualandri, volontario di Mozilla Italia.

1 Ciao Damiano, e grazie per aver accettato il nostro invito a parlare di Common Voice!

Ciao, grazie mille per l’opportunità spero di rispondere in modo esauriente a tutte le domande.

2 Partiamo subito con la prima domanda: in che modo l’utilizzo di una tecnologia open source può essere utile nel riconoscimento vocale?

L’utilizzo di una tecnologia open source nel riconoscimento vocale è importantissima, perché non esiste niente del genere ad oggi. Infatti tutte le soluzioni che si trovano sono proprietarie o sfruttano tecnologie proprietarie. Un esempio concreto sono gli assistenti vocali che vanno in voga molto oggi sia su dispositivi mobili che per quanto riguarda le soluzioni di domotica (basta pensare, per citarne solo un paio, ad Alexa e Google Home). Questi assistenti come funzionano: a seguito di un’attivazione del dispositivo in questione, mandano una breve registrazione ad un server proprietario a seconda del produttore di quel dispositivo. Questi server elaborano il parlato e ti restituiscono un testo che spesso corrisponde ad un’azione. Ad esempio se io dico “Alexa accendi la luce”, la luce si accenderà perché in pochissimi secondi verrà inviato il clippino contenente “Alexa accendi la luce” e Alexa capirà che dovrà accendere la luce e la luce si accenderà. L’open source è un buon punto di partenza perché siccome queste tecnologie sono proprietarie non esiste un’alternativa open e accessibile a tutti.

3 Common Voice è un progetto fortemente voluto da Mozilla, unico nel suo genere: quali sono i punti di forza del progetto?

Ci sono diversi punti di forza: il primo fra tutti è quello di essere open source, aperto e disponibile a tutti. Common Voice infatti si prefigge l’obiettivo di raccogliere quante più frasi possibili in modo tale da alimentare anche il dataset di DeepSpeech che è il cuore del progetto, perché si tratta sostanzialmente di convertire il parlato in scritto. E’ disponibile a tutti, che non è una cosa da sottovalutare perché attualmente magari c’è bisogno per forza di scaricare un’applicazione o una particolare cosa. Invece noi di Mozilla Italia abbiamo un’applicazione che è stata sviluppata da un volontario e altri volontari hanno proceduto al test e alle varie migliorie. Però non si è obbligati ad utilizzare l’applicazione in questione, nonostante offra più funzionalità del sito ufficiale come esempio il tema scuro o cose così, insomma sono delle piccole feature che vengono aggiunte al sito ufficiale. Ma il punto a favore è che basta un computer o un telefono, una connessione internet, un microfono e ovviamente delle casse. Tutti possono partecipare al progetto non importa se abbiamo il telefono che costa di più o costa di meno o un microfono professionale da registrazione o microfono integrato al computer. Tutti possono partecipare, anzi più c’è partecipazione meglio è per il progetto. Un altro punto a favore è quello di essere su base volontaria; infatti non vengono registrate conversazioni private o cose che è meglio che rimangano tra di noi. E’ l’utente che decide di collaborare attivamente al progetto sia lato registrazione che lato riproduzione, ma di questo ne parleremo magari più avanti non voglio anticipare nulla. Nel nostro caso in Italia abbiamo cercato di mettere su un dataset definitivo che comprenda tutte le possibili fonti ad oggi conosciute (italiane). Quindi è un punto a favore perché serve anche a fare machine learning un domani che qualcuno vorrà avere un elenco di frasi e di registrazioni può effettivamente addestrare dei modelli per fare machine learning utilizzando i nostri materiali.

4 Più in generale, la comunità italiana che opera sull’open source, ti sembra pronta per accogliere questa nuova sfida per quel che riguarda il riconoscimento vocale?

A mia modestissimo parere assolutamente si, la comunità è pronta per accogliere questa nuova sfida e raccogliere più voci possibili, a patto che venga fatta adeguata promozione. Infatti in questi ultimi mesi abbiamo lavorato molto sotto questo punto di vista ed è proprio questo che manda avanti il progetto Common Voice ossia l’azione e la base volontaria. Un utente deve essere coinvolto attivamente in entrambe le parti, sia nelle parti di convalida che nelle parti di registrazione ma di questo ne parleremo più avanti e non voglio anticipare nulla. È quindi importante che tutti vengano coinvolti e si sentano parte del cuore del progetto; la partecipazione è importante basta appunto conoscere un pochino il progetto perché essendo un progetto molto grande e di una grande portata insomma, non è da sottovalutare la potenza di questa iniziativa.

5 Hai notizia di applicazioni pratiche che sfruttano i dataset Common Voice in Italia (o all’estero)?

Su github si trovano un sacco di codici e di snippet dedicati proprio alla riconoscimento vocale tramite DeepSpeech quindi ne è pieno di esempi. Di mia conoscenza conosco, per quanto riguarda la parte italiana, solamente la applicazioni che ci sono state durante il DeepSpeech Italian Contest che è un contest che noi di Mozilla Italia abbiamo organizzato non troppo tempo fa, a novembre 2020. Con lo scopo appunto di far partecipare le persone e invogliarli a creare dei progetti utilizzando proprio questa tecnologia qui. Speriamo di organizzarne qualcun altro in futuro e vedremo come si evolverà la situazione.

6 Per quanto riguarda il progetto Common Voice, a fine 2020, quali obiettivi sono stati raggiunti dalla comunità italiana di Mozilla?

Attualmente ci sono 205 ore registrate e 161 convalidate. Non sono minimamente paragonabili alle frasi in lingua inglese, al numero di ore delle frasi in lingua inglese o lingua francese. Infatti nel primo caso in proporzione siamo un decimo mentre nei casi in lingua francese siamo a un terzo. Però è comunque un buon traguardo, perché siamo partiti diciamo da zero come tutti ma non abbiamo avuto subito il boom. In questi ultimi mesi abbiamo lavorato molto sulle attività di promozione e raggiungendo queste cifre che sono molto alte se comparate ad altre lingue. È vero che l’inglese è molto più diffuso dell’italiano, però è sicuramente un buon traguardo considerando appunto che non è che si parli italiano ovunque al mondo ma in Italia e in poche altre parti del mondo ci sono delle minoranze in lingua italiana.

7 Quali sono le modalità di partecipazione al progetto Common Voice italiano?

Ci sono due modi principali per contribuire al progetto Common Voice: la prima riguarda la registrazione di nuove frasi, mentre la seconda la convalida. Cosa vuol dire? Vuol dire che nel primo caso verranno mostrate delle frasi a schermo, verranno lette ad alta voce da chi vuole contribuire al progetto, con una intonazione abbastanza naturale. Non servono voci impostate o comunque sia voci particolari, basterà leggerle con il proprio accento e quindi con la propria cadenza. Importante che siano chiare e appunto verranno mostrate queste frasi su schermo e basterà registrarle ed inviarle. Mentre nel secondo caso, per quanto riguarda la convalida, la persona che deciderà di convalidare le frasi dagli altri non registrerà nulla ma ascolterà le frasi registrate da altre persone e verificherà se quello che è stato detto corrisponde effettivamente a quello che viene mostrato su schermo. Questa è una parte importantissima perché funge da intermediario tra il modello e le registrazioni che vengono inviate dai contributori. Se infatti una persona invia cento registrazioni ma di quelle cento registrazioni non ne va bene una, sostanzialmente non è che abbia fatto un buon lavoro. Però se di quelle cento registrazioni un buon 75% (per tenerci molto larghi) vengono approvate ecco questo è un buon risultato perché si riesce a contribuire in maniera attiva al dataset e ad inserire la propria voce all’interno di DeepSpeech e di Common Voice.

8 Quali sono i canali con cui è possibile contattare i volontari della comunità di Mozilla Italia che contribuiscono a Common Voice?

Noi come comunità Mozilla Italia siamo molto frastagliati, non siamo in un unico posto ma siamo in diversi posti. Il primo fra tutti è il gruppo “Home” accessibile da Mozilla Bot su Telegram dove siamo molto molto attivi. Ci sono diverse persone attive sul progetto Common Voice che collaborano giornalmente e che tra l’altro ringrazio personalmente. Comunque c’è un sacco di gente su Telegram quindi basta cercare “Mozilla Bot” sulla pagina di ricerca e trovate tutti i nostri canali (quindi il gruppo “Home”, il gruppo “Sviluppatori” e tanti altri gruppi dedicati ad altri temi). Un’altra parte importante della comunità è sul forum di Mozilla Italia (mozillaitalia.org). Attualmente quella parte sul forum è slegata un pochino dalla parte Telegram perché non tutti sono su Telegram, quindi alcuni fanno parte del forum, alcuni fanno parte del gruppo Telegram, e alcuni ovviamente ad entrambe le parti. Abbiamo anche un server Matrix, quindi una stanza su Matrix collegata direttamente al gruppo “Home”. Quindi chiunque non ha Telegram e non vuole magari iscriversi al servizio, può comunque contattarci tramite questo bridge e questa stanza su Matrix.

9 Grazie mille Damiano per la piacevole chiaccherata e alla prossima!

Grazie a voi alla prossima ciao!

Conclusione

Common Voice rappresenta quindi un classico esempio di come un approccio di intelligenza collettiva (IC) alla raccolta dei dati possa essere utilizzato per migliorare lo sviluppo dell’intelligenza artificiale (IA), enfatizzando le diversità e l’accesso aperto.