Robot, fais-moi un sandwich : comment votre futur androïde de maison saura-t-il où se trouve la cuisine ?

Nous naissons avec des yeux pour voir, des oreilles pour entendre, un nez pour sentir, une langue pour goûter et des mains pour toucher : en somme nous venons au monde avec tous les outils nécessaires à la compréhension de notre environnement. Mais les robots n’ont pas cette chance. Pour qu’ils voient, on doit les équiper d’une caméra. Pour qu’ils entendent, on doit leur intégrer des micros. Chez eux rien n’est inné : tout doit être construit, physiquement et intellectuellement. Et c’est un grand défi pour les ingénieurs en robotique d’aujourd’hui qui travaillent à fabriquer les robots intelligents de demain.

Dans son livre Le robot, meilleur ami de l’homme ? (2015, Éds du Pommier), Rodolphe Gelin aborde donc, parmi d’autres, la question capitale de la perception de l’environnement chez nos amis à circuits imprimés. Il faut préciser que Rodolphe Gelin sait de quoi il parle : après 20 ans passés au CEA, il est depuis 2009 responsable de la recherche chez Aldebaran Robotics, que vous connaissez déjà forcément : cette entreprise, fleuron de son industrie, s’est notamment faite connaître des médias et du grand public avec ses robots Neo et Romeo, aussi adorables que performants.

L’un des plus grands défis à relever quand on veut fabriquer un robot, c’est de le rendre capable de se repérer dans son environnement : comment voulez-vous qu’un robot domestique vous aide s’il ne trouve pas son chemin entre la cuisine et le salon ?

Pour cela il lui faut un capteur. Et il y a plusieurs solutions, la première étant d’employer un télémètre laser tournant :

Il va relever la distance de l’obstacle le plus proche dans toutes les directions autour de lui.  Cela va lui permettre de repérer tous les murs autour de lui. Le robot pourra donc en déduire s’il est bien au milieu du couloir et à quelle distance il est du bout du couloir. Connaissant la longueur du couloir et la position de la porte de la chambre de mon frère dans le couloir, grâce au plan de la maison, le robot pourra savoir s’il est arrivé à la hauteur de la porte et s’il peut tourner, ou s’il doit encore avancer un peu. Le laser lui permettra aussi de savoir si la porte de la chambre est ouverte ou fermée, et lui évitera donc de se jeter dans la porte fermée dans le deuxième cas.

Cette méthode est celle dite du SLAM (Simultaneous Localization and Mapping) : le robot dresse une carte des lieux lors d’une première exploration, puis s’y réfère pour ses déplacements suivants. C’est une technologie qui fonctionne bien, mais qui est coûteuse : le télémètre laser est une technologie très sophistiquée difficilement compatible avec un usage grand-public, en tout cas pour le moment.
Les ingénieurs ont donc cherché des solutions plus abordables, à savoir appliquer la mécanique du SLAM non plus à l’aide d’un télémètre laser ou de capteurs 3D, mais avec quelque chose de très bon marché : des caméras comme celles que nous avons sur nos smartphones. Problème : les images fournies ne sont plus en 3D, mais en 2D.

On peut voir dans une photo prise par une caméra si la porte en face du robot occupe une plus ou moins grande partie de la photo ; en revanche un robot ne peut pas savoir s’il est devant une très grande porte qui est loin ou si c’est une toute petite porte qui est tout près. Alors, pour le savoir, il va avancer un peu. Si la dimension de la porte dans l’image bouge beaucoup, c’est que la porte était tout près et était toute petite. Si la dimension de la porte varie très peu, c’est que la porte était loin et qu’elle doit être grande. En fait le robot ne voit pas qu’il y a une porte devant lui. Il voit un rectangle blanc dont il va repérer des zones caractéristiques : les bords, les coins, les taches sur le rectangle blanc faites par le trou de la serrure, la poignée, les gonds. En termes techniques, on dit que ce sont des « points d’intérêt ». 

La notion de points d’intérêt est donc capitale quand on souhaite faire en sorte que le robot puisse se repérer, et reconnaître des objets ou des visages. Comme l’explique l’auteur, nous disposons en tant qu’êtres biologiques et sociaux d’une perception globale : si nous nous trouvons face à une porte (ou à une table, ou à une chaise), la somme de nos connaissances et de nos perceptions fait que nous reconnaissons immédiatement s’il s’agit d’une table, d’une chaise, d’une porte ou du chien de la voisine. Mais le robot, lui, doit déduire d’un certain nombre de mesures et de croisements de données qu’il s’agit de tel objet, telle personne, tel obstacle. C’est un travail de titan pour son petit cerveau.

Le robot ne connaît pas a priori le concept de porte et ce sont des micro-détails faciles à détecter pour lui et parfois imperceptibles pour nous (variation de couleur autour des gonds et de la serrure) qui vont l’intéresser, au moins pour se localiser. En suivant l’évolution de milliers de points qu’il aura ainsi détectés, le robot pourra calculer de proche en proche la position dans l’espace de ces points, mais aussi sa propre position. En se promenant dans l’appartement, le robot reconstruira un nuage de points 3D qui constitueront sa représentation du monde, dans laquelle il se localisera et naviguera. Si le robot se promène dans un labyrinthe aux murs courbes (sans coins) et uniformément blancs, il sera incapable de se repérer. Mais il faut bien admettre que ce genre de situation est assez peu fréquent.

Mais si cette méthode est peu coûteuse en termes matériels, elle l’est d’une autre façon : la puissance de calcul nécessaire à de telles opérations est faramineuse. Les ingénieurs ont donc imaginé une troisième solution, non plus métrique mais topologique. En gros, il s’agit d’indiquer son chemin au robot en l’aidant à se repérer grâce à des étapes distinctes et facilement identifiables. À savoir : plutôt que de lui dire « avance de 6 mètres, puis pivote de 90 degrés vers la droite, puis avance encore encore de 2 mètres », on va lui dire « prends le couloir devant toi, ensuite prends le couloir à droite et entre dans la chambre au bout de ce couloir ». Pour résumer, plutôt que d’utiliser des instructions factuelles, on utilise des instructions symboliques. Mais il faut pour cela que le robot soit capable de reconnaître ces éléments topographiques distincts, tels qu’un couloir, une porte ou la devanture d’une boulangerie.

Photo : Alex Knight (via Unsplash)

Il faudra donc constituer une base de données suffisamment large pour que le robot ait des points de comparaison, et qu’il sache que la devanture d’une boulangerie ressemble en général à ça, qu’un hélicoptère ressemble en général à ça et qu’un panneau de signalisation routière ressemble en général à ça. Cette base de données, constituées de millions de photos de boulangeries, d’hélicoptères et de panneaux prises sous tous les angles et dans toutes les lumières possibles, doit être gigantesque pour être efficace. Et même après cela, nous devons l’aider encore un peu.

Vous avez peut-être déjà été confronté à cela lorsque vous faisiez une recherche sur Google : pour « vérifier que vous êtes bien un humain », on vous propose un petit jeu sous la forme panel de photos, et on vous demande d’identifier les carrés dans lesquels se trouvent des panneaux, des hélicoptères ou des façades de magasins. En cliquant sur les carreaux correspondants, vous aidez l’intelligence artificielle de Google à s’améliorer en comparant ses résultats aux vôtres. En somme, vous êtes devenu l’espace d’un instant le professeur particulier d’un robot. À l’instar des écoliers, les robots doivent apprendre de nous avant d’être capables de se débrouiller peut-être un jour seuls.

Dans l’excellente collection des Petites Pommes du Savoir, qui s’attache à rendre la science ludique et accessible, Le robot, meilleur ami de l’homme ? de Rodolphe Gelin est une lecture essentielle pour le néophyte qui, au-delà des fantasmes et des imageries médiatique et culturelle, voudrait prendre la mesure des défis qui accompagnent la recherche robotique contemporaine et des questions éthiques qui les suivent : en 128 pages, le panorama est suffisamment clair et complet pour se faire une solide idée du sujet.

❤️

C’est grâce à la générosité de ses soutiens que Page42 ne comporte aucune publicité et continue d’être régulièrement mis à jour. Vous pouvez soutenir Page42 de façon ponctuelle ou mensuelle via Tipeee, LiberaPay et PayPal. Toutes les contributions sont les bienvenues.

Si cet article vous a plu, faites passer le message et partagez-le sur vos réseaux sociaux.

Page42 propose un récapitulatif hebdomadaire des meilleurs articles du blog. Inscrivez-vous pour le recevoir. Pas de pub, pas de spam, promis.

Bandeau d'illustration : Andy Kelly (via Unsplash)

0 Partages