Figure 03 diventa virale: il robot sceglie la taglia giusta

Un breve video pubblicato sui social ha riportato l’attenzione sui progressi dei robot umanoidi. A rilanciarlo è stato Brett Adcock, fondatore e CEO di Figure AI, che ha mostrato un’interazione diretta con l’ultima versione del robot dell’azienda, Figure 03. Il filmato documenta una sessione di test informale: l’umanoide risponde a domande, riconosce oggetti e porta a termine piccoli compiti pratici, come distribuire magliette di taglie diverse.

L’apertura è affidata a una domanda semplice, utile a fissare il contesto. Adcock chiede al robot dove sia stato costruito e Figure 03 risponde con voce sintetica, indicando San Jose, in California. Da quel punto lo scambio si sposta sulle caratteristiche del modello e sul posizionamento nella linea di sviluppo: il robot spiega di appartenere alla terza generazione e sottolinea, in modo programmatico, che questa versione risulta la più avanzata rispetto alle precedenti.

Domande e risposte con voce sintetica

Nel dialogo emergono due aspetti che puntano a rendere l’esperienza più credibile: la chiarezza dell’audio e la capacità di mantenere una conversazione coerente. Figure 03 risponde in modo comprensibile e mantiene il filo, pur restando dentro i limiti di una comunicazione ancora lontana dalla spontaneità umana. Il video, infatti, ha raccolto anche osservazioni critiche legate ai tempi di reazione: diversi commenti hanno evidenziato una latenza percepibile, con un’attesa spesso di due o tre secondi tra domanda e risposta.

Questo dettaglio non annulla il valore della dimostrazione, ma mette in evidenza un punto su cui la robotica continua a lavorare: ridurre l’intervallo tra input e output per rendere più naturale lo scambio. La scena mostra come il robot sia già in grado di gestire un’interazione strutturata, con richieste chiare e risposte che arrivano senza deviazioni.

Il test delle magliette misura visione e movimento

La parte più rilevante del filmato arriva quando Adcock mette alla prova le capacità di riconoscimento visivo. Sul tavolo sono presenti contenitori con magliette di taglie diverse. Alla richiesta di consegnare prima una taglia media e poi una grande, Figure 03 individua il contenitore corretto e porge l’oggetto senza incertezze. L’azione è semplice nella forma, ma significativa perché mostra l’integrazione tra percezione visiva, comprensione del linguaggio e movimento coordinato.

In questo tipo di compito si concentrano diversi passaggi: individuare l’oggetto richiesto, associare l’indicazione verbale alla categoria corretta, pianificare il gesto e completare la consegna. La dimostrazione evidenzia un comportamento ordinato e ripetibile, con una sequenza di pick-and-place impostata per ambienti controllati.

È anche per questo che il video è stato letto come un segnale di avanzamento verso scenari domestici o lavorativi, dove l’affidabilità nei compiti di routine conta più dell’effetto scenico.

Helix collega ciò che vede e ciò che fa

A rendere possibile questo tipo di interazione è Helix, il modello proprietario Vision-Language-Action di Figure AI, pensato per collegare ciò che il robot “vede” con ciò che “capisce” e con ciò che esegue fisicamente. Il punto chiave non è un singolo gesto, ma il passaggio continuo da input visivo e linguistico a una risposta motoria coerente. Nel video, Helix appare come l’elemento che permette a Figure 03 di passare dalle parole all’azione senza passaggi intermedi visibili.

Sul piano hardware e di progetto, Figure 03 viene descritto come un’evoluzione rispetto ai modelli precedenti. Presentato nell’ottobre 2025, risulta più compatto e circa il 9% più leggero. Adotta rivestimenti in tessuto e imbottiture in schiuma progettate per ridurre il rischio di infortuni durante l’interazione con le persone. L’altezza indicata è di circa 1,68 metri e il robot è orientato a compiti di pick-and-place in ambienti controllati.

Tra gli elementi tecnici citati compare anche la ricarica: un sistema wireless integrato nei piedi consente di ricaricare posizionandosi su una piattaforma dedicata, fino a 2 kilowatt, con un’autonomia indicata in circa cinque ore. Anche l’audio è stato migliorato con altoparlanti più grandi, per rendere la voce più comprensibile e meno distorta.

Nel complesso, il video concentra in pochi minuti i punti che oggi attirano l’attenzione sul settore: integrazione tra modelli di AI, riconoscimento, movimento e interazione verbale.

CONDIVIDI L'ARTICOLO