Come gli algoritmi capiscono cosa ci piace e cosa devono suggerirci

algoritmi

Ogni volta che si apre una piattaforma di streaming, si scorre un feed social o si entra in un e-commerce, in background lavora una serie di algoritmi di raccomandazione. Sono sistemi che analizzano quantità enormi di informazioni con l’aiuto di big data, intelligenza artificiale e machine learning, per decidere quali film mostrare in homepage, quali brani proporre in una playlist o quali prodotti mettere in evidenza in una vetrina digitale.

Il loro compito è duplice. Da una parte aiutano gli utenti a orientarsi in cataloghi sterminati, riducendo il tempo necessario per trovare qualcosa di interessante. Dall’altra permettono alle aziende di mantenere alto il livello di coinvolgimento, invogliare l’ascolto, la visione o l’acquisto e quindi sostenere il proprio modello di business. Non sorprende che il mercato di questi sistemi valga già circa 7 miliardi di dollari e, secondo le stime, sia destinato a triplicare nel giro di pochi anni.

Per arrivare a una schermata di raccomandazioni personalizzate, però, il percorso è tutt’altro che semplice. I sistemi di raccomandazione raccolgono, archiviano, analizzano e filtrano una grande varietà di dati, combinando tecniche diverse per raggiungere lo stesso obiettivo: anticipare, con buona approssimazione, ciò che una persona potrebbe apprezzare in futuro. Il tutto con modalità che variano da piattaforma a piattaforma, perché ogni servizio costruisce il proprio motore su misura, con specifiche e logiche differenti.

Come funzionano i sistemi di raccomandazione

Per capire come questi algoritmi riescano a “intuire” i gusti degli utenti, è utile immaginare una catena composta da più passaggi.

Il primo passaggio riguarda la raccolta dei dati, che rappresenta il carburante dell’intero sistema. Le piattaforme raccolgono informazioni di due grandi tipi:

  • Dati espliciti: sono le interazioni consapevoli, come un Mi piace, una recensione testuale, una valutazione con le stelle o l’aggiunta di un film ai preferiti.
  • Dati impliciti: sono segnali meno evidenti, ma molto più numerosi, che comprendono cronologia di navigazione, click, acquisti passati, tempo di permanenza su una pagina o su un prodotto, contenuti saltati dopo pochi secondi e contenuti guardati o ascoltati fino alla fine.

A questi si affiancano spesso dati demografici (come età o area geografica) e psicografici (stili di vita, interessi generali, abitudini di consumo). Tutto questo materiale viene convogliato verso la seconda fase, quella dell’archiviazione: i dati finiscono in strutture di memorizzazione complesse, come data warehouse o data lake, progettate per conservare grandi volumi di informazioni nel tempo.

La terza fase è l’analisi vera e propria. Qui entrano in gioco algoritmi di machine learning che cercano schemi ricorrenti all’interno di quei dati, individuano correlazioni matematiche e costruiscono modelli predittivi. È in questo passaggio che il sistema inizia a “comprendere” che chi apprezza un certo genere di film tende a gradirne altri simili, o che chi ascolta un certo artista rientra spesso in un insieme di utenti con comportamenti affini.

Arrivati a questo punto, entra in scena il cuore del sistema: il filtraggio, ossia il meccanismo che traduce i modelli matematici in suggerimenti concreti.

Nel filtraggio collaborativo, utilizzato in modo massiccio da piattaforme come Amazon o Spotify, l’algoritmo fa leva sulla somiglianza tra utenti. Se due persone mostrano gusti simili per una parte significativa del catalogo, il sistema deduce che potrebbero avere preferenze in linea anche su altri contenuti.

In pratica, se l’utente A e l’utente B hanno apprezzato molti degli stessi film, è probabile che i titoli visti da B ma non ancora visti da A possano interessare anche ad A. Questo tipo di approccio può essere implementato con metodi basati sulla memoria, che calcolano direttamente la “distanza” tra profili utente, oppure con metodi basati su modelli, che utilizzano reti neurali e tecniche di deep learning per colmare i vuoti nelle preferenze.

Questo schema incontra un ostacolo evidente nel cosiddetto problema di cold start: quando un utente è appena arrivato sulla piattaforma e non ha ancora lasciato tracce significative, l’algoritmo fatica a posizionarlo in relazione agli altri e le raccomandazioni risultano meno accurate.

Per aggirare questo limite esiste un secondo approccio, il filtraggio basato sui contenuti. In questo caso il sistema si concentra sulle caratteristiche degli oggetti, più che sulle somiglianze tra utenti. Un brano musicale, ad esempio, può essere descritto da tag, genere, ritmo, strumenti, atmosfera; un film da regista, cast, temi narrativi, stile visivo.

Ogni oggetto viene rappresentato come un vettore in uno spazio matematico, e anche il profilo della persona viene trasformato in un vettore che sintetizza le preferenze emerse fin lì. L’algoritmo propone quindi contenuti che, in quello spazio, risultano “vicini” a ciò che l’utente ha già gradito.

Questo tipo di filtraggio attenua il problema dell’avvio a freddo, perché basta conoscere pochi elementi apprezzati per poter esplorare lo spazio dei contenuti simili. Allo stesso tempo, però, può finire per costruire una sorta di bolla: l’utente riceve quasi sempre elementi molto affini a quelli già consumati, con meno occasioni di scoperta di qualcosa di davvero diverso.

Per questo molte piattaforme, come Netflix, scelgono di adottare sistemi ibridi, che combinano filtraggio collaborativo e filtraggio basato sui contenuti. Integrare e far dialogare queste tecniche richiede più potenza di calcolo e una progettazione complessa, ma i risultati in termini di pertinenza delle raccomandazioni sono evidenti. Basti pensare che, secondo le stime riportate da Netflix, circa l’80% delle visioni sulla piattaforma nasce da suggerimenti generati dal motore di raccomandazione.

I motori di raccomandazione hanno dei limiti?

Per quanto sofisticati, questi sistemi non sono privi di aspetti da considerare con attenzione. Il primo riguarda la scala: produrre suggerimenti personalizzati per milioni di persone, in tempo quasi reale, comporta una complessità tecnica notevole, sia sul fronte dell’infrastruttura sia sul fronte degli algoritmi.

Un altro nodo centrale riguarda i bias. Gli algoritmi si formano e migliorano a partire dai dati che ricevono e, se quei dati riflettono squilibri o pregiudizi presenti nella società, il rischio è che il sistema finisca per amplificarli. Ciò può tradursi in raccomandazioni distorte, che tendono a favorire certi contenuti rispetto ad altri o che ripropongono sempre gli stessi schemi, riducendo la varietà delle esperienze proposte.

A questo si aggiunge la questione della privacy. I motori di raccomandazione si basano sull’osservazione continua del comportamento degli utenti e sulla raccolta di informazioni personali, talvolta molto dettagliate. Garantire che questi dati vengano trattati in modo conforme alle normative, protetti da accessi non autorizzati e utilizzati entro limiti chiari è una sfida costante, che coinvolge aspetti legali, tecnici ed etici.

Infine, resta aperto un campo di discussione ampissimo sul ruolo che questi sistemi hanno nel plasmare gusti, abitudini e persino opinioni delle persone. Il tema tocca la responsabilità delle piattaforme, il diritto alla trasparenza sugli algoritmi e la necessità di strumenti di controllo per gli utenti. Si tratta di questioni molto complesse, da analizzare in tutti i loro aspetti.

CONDIVIDI L'ARTICOLO