Dataset 'Synthetic Words'
Il dataset 'synthetic-words' contiene file audio che riproducono la pronuncia di 20 parole inglesi ottenuta usando voci sintetiche disponibili sul Mac tramite il comando say
.
I file audio sono in formato wav e sono campionati a 22050 Hz mono; per ogni parola ci sono 325 file wav ottenuti con 25 voci diverse eseguite a differenti velocità.
Il file sono raccolti in due archivi tar.gz (10 parole per ciascun archivio) liberamente scaricabili; il repository contiene anche uno script per decomprimerli e uno script
qualora si volesse rigenerare (su un Mac) il dataset, magari cambiando le parole, le voci e le velocità.
La sfida sarà allenare una rete neurale su tale dataset di voci sintetiche e poi testarla a riconoscere le stesse parole pronunciate da voci naturali.
Download del dataset
Il dataset e lo script per Mac per rigenerarlo sono disponibili su GitHub.
Questo materiale è distribuito su licenza MIT; sentiti libero di usare, condividere, "forkare" e adattare tale materiale come credi.
Sentiti anche libero di pubblicare pull-request e bug-report su questo repository di GitHub oppure di contattarmi sui miei canali social disponibili nell'angolo in alto a destra di questa pagina.