Un unico cervello AI per tutti i robot
Un robot da magazzino non può piegare il bucato. Un robot chirurgico non può saldare una giuntura. Un robot da cucina non può aprire la porta di casa. Ogni robot oggi operativo, per quanto avanzato, è costruito e addestrato per un unico compito. Cambia il compito, e si ricomincia quasi da capo.
Physical Intelligence, una startup che sta costruendo quello che chiama un “foundation model” per l’azione fisica, scommette che questo sta per cambiare. L’azienda descrive il suo obiettivo come il “momento GPT-2 per i robot”: un modello in grado di guidare diversi corpi robotici, diverse braccia, diverse mani, diversi modi di muoversi, senza essere riaddestrato da zero per ciascuno.
Perché un robot non può fare due lavori
Oggi costruire un robot assomiglia molto allo sviluppo software prima dell’esistenza delle librerie di codice riutilizzabile. Ogni robot ha il suo stack: un sistema di percezione per vedere il mondo, un sistema di pianificazione per decidere cosa fare, un sistema di controllo motorio per eseguire. Ogni componente è costruito e ottimizzato per quel robot specifico e quel compito specifico.
Ecco perché un robot che smista pacchi in un magazzino di solito non può anche piegare una maglietta, anche se entrambi i compiti implicano prendere un oggetto e spostarlo altrove. L’abilità sottostante — guardare un oggetto, capire cos’è, capire come afferrarlo — è simile in entrambi i casi. Il software semplicemente non si trasferisce.
Dentro pi0 e pi0.5 di Physical Intelligence
L’approccio di Physical Intelligence si chiama Vision-Language-Action (VLA). L’idea è di fondere percezione, pianificazione e controllo motorio in un’unica rete neurale che va direttamente dall’input della telecamera e da un’istruzione testuale ai comandi motori. Niente sistemi separati che si scambiano informazioni. Una rete sola, dall’inizio alla fine.
Il primo modello dell’azienda, pi0, è stato addestrato su dati raccolti da diversi robot che eseguivano un’ampia gamma di compiti. La versione più recente, pi0.5, spinge oltre: secondo Physical Intelligence, pi0.5 può generalizzare a ambienti nuovi mai visti durante l’addestramento, inclusa la pulizia di una cucina o di una camera da letto in una casa in cui il modello non è mai stato.
L’azienda è trasparente: non è un prodotto finito. pi0.5 non riesce in ogni tentativo, e il suo focus attuale è gestire nuovi ambienti piuttosto che padroneggiare nuove abilità o destrezza fine.
La strategia: non costruire hardware
La maggior parte dell’attenzione nella robotica va a due strategie molto diverse. Unitree, l’azienda cinese di robotica, ha spedito oltre 5.500 robot umanoidi nel 2025, con il modello G1 a un prezzo tra 13.000 e 16.000 dollari. La strategia è volume e prezzi in calo. Figure AI, valutata circa 39 miliardi di dollari, ha invece puntato sull’autonomia: i suoi robot possono operare autonomamente per oltre 60 ore.
Physical Intelligence si colloca al di fuori di questo dibattito. Non costruisce hardware robotico. La sua scommessa è che chiunque vinca sul volume e chiunque vinca sull’autonomia avrà comunque bisogno di un modello che funzioni sull’hardware che già possiede — e quel modello potrebbe arrivare da un’azienda che non costruisce né robot economici né robot costosi.
Il divario tra idea e realtà
La distanza tra questa idea e un prodotto finito è ancora ampia. I foundation model per il linguaggio hanno impiegato anni e dataset enormi prima di diventare affidabili, e i dati fisici sono molto più difficili da raccogliere del testo. Ogni dimostrazione robotica in laboratorio è un singolo punto dati. Ottenere un unico modello che gestisca la varietà infinita di case, magazzini e fabbriche reali è un problema di scala completamente diverso.
Il ruolo di NVIDIA è significativo: le piattaforme di simulazione Cosmos e Isaac, che NVIDIA sta sviluppando con partner come LG, sono disponibili anche per startup che lavorano su modelli generalisti. L’infrastruttura di training sta diventando una risorsa condivisa, il che potrebbe accelerare la maturazione di questo approccio — o rendere più difficile per qualcuno rimanere in vantaggio a lungo.
Il mio parere: Il paragone con il “momento GPT-2” è azzardato. GPT-2 era un modello linguistico valutato sul testo, un ambito dove i dati sono economici e gli errori non costano nulla. Un robot che sbaglia a afferrare un bicchiere rompe il bicchiere. Essere sbagliati qui è fisico, non un output sbagliato su uno schermo. Tuttavia, l’inquadratura del problema — un modello invece di un modello per robot per compito — è corretta, e quel tipo di cambiamento strutturale tende a produrre effetti composti una volta che inizia a funzionare anche parzialmente.