Visione artificiale

DI CESARE PIZZORNO

Diamo la vista ai robot

La presenza dei robot sulle macchine speciali è tutt’altro che una novità. I pezzi che prelevano, tuttavia, devono avere una posizione e un’orientazione note. Nel bin picking, o presa da cassone, i robot svuotano contenitori riempiti con oggetti alla rinfusa, prelevandoli a uno a uno: un’evoluzione che può avere ricadute importanti nel mondo dell’assemblaggio in termini di efficacia e flessibilità. A patto di ritoccare ulteriormente i tempi di lavorazione. Di tutto questo, e delle prospettive della visione artificiale, abbiamo parlato con l’ingegner Remo Sala, docente al Politecnico di Milano e fondatore dello spin off ISS, specializzato proprio in bin picking e guida robot.

L’ingegner Remo Sala, docente presso la sezione di Misure e tecniche sperimentali del Politecnico di Milano e parte del laboratorio di 3D Vision dello stesso Politecnico, ha fatto della robotica il filo conduttore di un’intera carriera, passando dalla robotica pura a quelli che comunemente vengono definiti sistemi di visione. Tra i fondatori degli spin off ISS e Steriline Robotics, nato con la missione di sviluppare una macchina per la preparazione di farmaci chemioterapici personalizzati, è oggi uno dei riferimenti in Italia nel campo della visione artificiale e, soprattutto delle applicazioni della visione nell’industria manifatturiera. Parlando del presente ma con lo sguardo inevitabilmente rivolto al futuro e il focus puntato sul mondo che più da vicino ci riguarda, quello dell’assemblaggio, siamo andati a trovarlo e con lui abbiamo fatto una chiacchierata molto interessante.

Nell’ambito dell’assemblaggio, i costruttori guardano sempre più spesso alla guida robot per incrementare il livello di flessibilità delle loro macchine. Quale ruolo può giocare in un cambio di prospettiva simile, secondo lei? E a che punto siamo del processo?
Il robot è un ottimo sistema che ha la capacità di prendere un pezzo a patto che “qualcosa” provveda a metterlo in una certa posizione con una certa orientazione. Questo implica, per l’integratore, la necessità di predisporre una meccanica che prelevi il pezzo e lo ponga nella posizione corretta e con l’orientazione appropriata. Tutto questo viene di solito realizzato negli impianti di assemblaggio grazie a una serie di attrezzature (vibratori, nastri trasportatori e così via). Un’alternativa importante è rappresentata proprio dal bin picking, che io chiamo anche pallet virtuale, un modello per cui il robot “chiede” al sistema di visione dove prendere il pezzo e il sistema dà informazioni su come e dove prenderlo. In sostanza, è come se il sistema di visione sostituisse i componenti meccanici che servono alla preparazione del pezzo.
Il bin picking è diffuso nell’industria già da 4-5 anni, ma ha ancora tempi operativi piuttosto lunghi per il mondo dell’assemblaggio. L’evoluzione attuale, che riguarda sia gli algoritmi che la parte hardware, garantisce che il gap verrà colmato a breve.

L’ingegner Remo Sala, docente del Politecnico di Milano e tra i fondatori dello spin off ISS.

A suo parere, potrebbe essere la guida robot l’elemento fondamentale per sdoganare sui grandi numeri l’introduzione di celle di lavoro collaborative, in cui convivono quindi uomini e robot?
I nuovi modelli di cobot sono estremamente flessibili, e adesso anche elementi come gli end effector stanno diventando collaborativi. Se, però, occorre predisporre, come detto prima, una periferia meccanica per la preparazione dei pezzi, anche questa dovrà essere “cooperativa”, e questo spesso rappresenta un ostacolo non indifferente.
I sistemi di visione possono in effetti rappresentare la soluzione per semplificare la realizzazione di celle cooperative.

Dal punto di vista della struttura meccatronica del robot, quali sono gli elementi che rendono più complessa l’operazione di presa di pezzi alla rinfusa da un cassone?
Sono molti, e per comprenderli proverei a degradare le prestazioni umane fino a renderle simili a quelle di un robot, partendo dal mettere in discussione una frase che si sente dire spesso, e cioè che il robot è un braccio. Infatti, il braccio robotico può essere sì più veloce del braccio umano e più accurato nel posizionarsi ma non dispone del senso del tatto; quindi, per capire come agisce un robot, occorre immaginare di indossare sul braccio un’armatura di metallo che tolga qualsiasi possibilità di usare il tatto; l’unico tipo di informazione che il robot industriale può sfruttare è un grossolano sistema di rilevamento delle collisioni basato sul monitoraggio della corrente assorbita dai motori.
La mano del robot è costituita da due o tre dita, ciascuna delle quali ha una singola possibilità di movimento (apertura e chiusura), quasi sempre di tipo pneumatico e solo raramente di tipo elettrico. La mano umana, invece, dispone di ben 27 possibilità di movimento singolarmente controllate e, globalmente, di cinque dita ricoperte integralmente da un sensore tattile in grado di individuare dove si esercita la forza di contatto e con quale intensità. La presa, nel mondo robotizzato, avviene quindi sfruttando solo il movimento di apertura e di chiusura, senza disporre di informazioni tattili, ma, al più, conoscendo la forza con cui le due dita afferrano l’oggetto.
Altro elemento di differenziazione è la vista, senso di cui i robot non sono dotati, anche se possono essere interfacciati con un sistema di visione che tuttavia ha, ancora oggi, prestazioni di gran lunga inferiori, o comunque diverse, rispetto al sistema di percezione visiva dell’uomo. Per simulare la condizione operativa del robot, pur dotato di sistema di visione, è utile immaginare di lavorare bloccando il movimento della testa e la rotazione dei singoli occhi, in quanto le telecamere sono praticamente sempre montate su un supporto rigido. Inoltre, e questa è l’altra grande differenza, il cervello, in base all’esperienza accumulata, è in grado di riconoscere oggetti anche se ne vede una piccola parte, a differenza dei sistemi di visione industriale.

Nel bin picking, il robot “chiede” al sistema di visione dove prendere il pezzo
e il sistema dà informazioni su come e dove prenderlo.

La presa di pezzi da cassone funziona anche con componenti di tipologia diversa?
I sistemi di bin picking prelevano gli oggetti riconoscendone la forma. Ciò vuol dire che si parte da una scansione o da un file CAD, tipicamente. Come ISS, per esempio, quando abbiamo realizzato il bin picking ci è sembrato intelligente fare in modo che noi potessimo dire al robot “cerca 10 tipologie di pezzi”.
Sul mercato vediamo che questa possibilità non è molto ricercata al momento, ma potenzialmente non ci sono assolutamente preclusioni.

Secondo la sua esperienza, quanto è cruciale la fase di carico, di alimentazione dei pezzi nella ricerca di un’efficienza ancora maggiore da parte dei costruttori di macchine?
È un passaggio evolutivo che ritengo cruciale per avere macchine automatiche sempre più performanti non tanto in termini di produttività bensì di flessibilità produttiva. Robot e sistemi di visione, insomma, risolveranno molti problemi che al momento sono affrontati solo da un punto di vista meccanico, permettendo di estendere l’applicazione dell’automazione anche nella produzione delle piccole serie.
In precedenza si è detto che c’è ancora un gap da colmare perché il bin picking sia realmente efficace, soprattutto in termini di rispetto del tempo ciclo, nelle attività di assemblaggio.

Il sistema 3D CPS 2.0, sviluppato da ISS, applicato a una cella di lavoro dotata di un robot a sei assi.

Su quali aspetti si sta concentrando la ricerca attualmente?
Principalmente sull’applicazione di tecniche legate alle reti neurali convoluzionali (CNN), le cui basi teoriche sono state poste fin dagli anni ’60, ma finora difficilmente applicabili per l’assenza di una potenza di calcolo sufficiente.
Immaginiamo un problema semplice: riconoscere due oggetti con caratteristiche diverse tra loro. Il metodo tradizionale prevede che l’informatico esperto di visione crei gli algoritmi funzionali al riconoscimento di ogni oggetto.
È l’uomo, insomma, a definire i parametri che servono per l’identificazione e, di conseguenza, l’algoritmo da applicare.
Un’evoluzione ulteriore è necessaria quando non è così semplice definire dei valori soglia per i parametri. Qui entra in gioco il cosiddetto machine learning. In pratica, l’uomo definisce alcuni parametri, ma non la soglia necessaria per l’identificazione, che viene definita tramite algoritmi matematici. Quindi, le regole dell’algoritmo vengono definite in automatico (da qui il machine learning), mentre i parametri identificativi restano appannaggio dell’uomo.
Il passo ulteriore è avvalersi di un sistema neurale che permette, entro certi limiti, di definire in automatico sia i parametri che l’algoritmo necessario all’identificazione dell’immagine. In sintesi, il sistema, a partire dall’analisi di un certo numero di immagini, solitamente molto elevato, “impara” a riconoscere un oggetto dall’altro.

Nell’ultimo periodo, complice anche il successo dello Smart Vision Forum, si parla molto di visione industriale e delle prospettive della visione. In più, diverse aziende importanti stanno entrando in questo mondo. Tutto ciò è positivo o ci possono essere dei rischi?
È un fatto assolutamente positivo, sia chiaro. L’importante è che non si diffonda l’illusione che la possibilità di gestire e programmare un sistema di visione, ad esempio tramite PLC, coincida con la capacità di fare un sistema di visione. L’evoluzione tecnologica non cambia il fatto che la visione necessiti ancora oggi di esperti, tecnici specializzati in visione il cui ruolo è anzi ancora più importante vista la complessità dei trend che stanno emergendo.

In estrema sintesi, quali saranno, secondo lei, le parole d’ordine legate alla visione artificiale applicata agli ambienti produttivi nei prossimi anni?
Algoritmi sempre migliori e più semplici da utilizzare, diffusione delle reti neurali e ampliamento delle capacità delle telecamere, intendendo con l’ultimo concetto il superamento di telecamere pensate per produrre immagini che “imitano” la vista umana, nel senso che acquisiscono esclusivamente la luce visibile. Già oggi è infatti possibile acquisire immagini nell’ultravioletto, nell’infrarosso oppure contemporaneamente su più bande con le telecamere multispettrali e iperspettrali.La possibilità di avvalersi di conoscenze provenienti dal mondo della spettroscopia avrà sicuramente risalto nel prossimo futuro.