Fonemi, intonazioni e pause: così l'IA ricostruisce il linguaggio

Un delicato ponte tra mente e voce collega ora ciò che Casey Harrell immagina alle parole che emergono da un sintetizzatore, con un ritardo impercettibile all’orecchio umano. L’attivista climatico quarantenne, che la Sclerosi Laterale Amiotrofica aveva costretto a vocalizzi confusi, torna così a farsi capire.

Il paziente e la nuova speranza

La SLA ha eroso i motoneuroni di Harrell, indebolendo quella muscolatura fine su cui si basa l’articolazione. L’uomo riesce ancora a muovere labbra e mandibola, ma i suoni risultano distorti e il suo messaggio si perdeva.

In precedenza era stato sottoposto all’impianto di 256 micro-elettrodi nella corteccia motoria per un progetto di ricerca diverso. Proprio quell’hardware, mai rimosso, ha aperto la strada all’esperimento più recente.

Oggi quel reticolo neurale viene letto di continuo; le scariche elettriche raccolte ogni 10 millisecondi scorrono verso algoritmi addestrati per restituire fonemi e ritmo del parlato.

Dentro il laboratorio

La neuroscienziata Maitreyee Wairagkar, dell’Università della California a Davis, ha guidato il team che ha insegnato all’intelligenza artificiale a trasformare comandi motori in suoni intelligibili. Il cuore del sistema è un decodificatore che punta al livello minimo della fonazione umana, trattando ogni micro-suono come un’unità autonoma.

Questo metodo “a maglie larghe” non si limita a un vocabolario prestabilito: riconosce perfino interiezioni spontanee come “uhm” o “eh”, fondamentali per dare respiro al discorso. Non manca la gestione dell’intonazione: l’accento su una sillaba o la curva ascendente tipica delle domande vengono resi con sorprendente fedeltà.

Il risultato è una voce sintetica capace di seguire le intenzioni in appena 25 millisecondi, tempo paragonabile a quello che impieghiamo per udire noi stessi mentre parliamo—quaranta volte più rapida rispetto a molte soluzioni precedenti.

Verso dialoghi naturali

Con simili latenze, una conversazione torna a essere scorrevole, con interventi che si sovrappongono senza imbarazzanti pause. Il tracciato cerebrale, una volta convertito, consente persino di canticchiare semplici sequenze di tre o quattro note, segno che ritmo e altezza possono coesistere nel nuovo canale espressivo.

La possibilità di modulare il tono rende promettente l’uso della tecnologia anche in lingue tonali, dove un lieve cambio di frequenza distingue significati distinti. La strada verso protesi vocali autenticamente personalizzate appare più vicina, grazie all’unione di sensoristica ad alta densità e calcolo neurale avanzato.

Secondo i ricercatori, affinare i modelli sui pattern individuali potrebbe offrire a pazienti con patologie diverse la stessa libertà espressiva sperimentata da Harrell, allentando uno degli aspetti più penalizzanti della loro quotidianità.

Il paziente e la nuova speranza

Dentro il laboratorio

Verso dialoghi naturali

NON PERDERE QUESTE NEWS

L’IA sul lavoro può causare stress mentale: cos’è il brain fry

Dopamina e ricompense: perché alcune app sono così “app-iccicose”

Il rumore di fondo digitale: quando il multitasking impedisce di sentire se stessi

L’Intelligenza Artificiale può esistere senza esseri umani?