Le développeur de robots Figure a fait parler de lui mercredi en partageant une démonstration vidéo de son premier robot humanoïde engagé dans une conversation en temps réel, grâce à l'IA générative d'OpenAI.

«Avec OpenAI, Figure 01 peut désormais avoir des conversations complètes avec les gens,» a déclaré Figure sur Twitter, mettant en avant sa capacité à comprendre et réagir instantanément aux interactions humaines.

La société a expliqué que son récent partenariat avec OpenAI apporte une intelligence visuelle et linguistique de haut niveau à ses robots, permettant des actions robotiques rapides, de bas niveau et dextres.

Dans la vidéo, Figure 01 interagit avec Corey Lynch, l'ingénieur principal en IA de son créateur, qui soumet le robot à plusieurs tâches dans une cuisine improvisée, notamment l'identification d'une pomme, de plats et de tasses.

Figure 01 a identifié la pomme comme de la nourriture lorsque Lynch a demandé au robot de lui donner quelque chose à manger. Lynch a ensuite demandé à Figure 01 de ramasser les déchets dans un panier et lui a posé des questions simultanément, mettant en valeur les capacités de multitâche du robot.

Sur Twitter, Lynch a expliqué le projet Figure 01 de manière plus détaillée.

«Notre robot peut décrire son expérience visuelle, planifier des actions futures, réfléchir à sa mémoire et expliquer son raisonnement verbalement», a-t-il écrit dans un fil de discussion détaillé.

Selon Lynch, ils alimentent des images des caméras du robot et transcrivent le texte à partir des enregistrements audio capturés par les microphones embarqués dans un grand modèle multimodal entraîné par OpenAI.

L'IA multimodale fait référence à l'intelligence artificielle capable de comprendre et de générer différents types de données, tels que du texte et des images.

Lynch a souligné que le comportement de Figure 01 a été appris, s'exécute à vitesse normale et n'est pas contrôlé à distance.

«Le modèle traite l'ensemble de l'historique de la conversation, y compris les images passées, pour proposer des réponses en langage, qui sont ensuite prononcées à l'humain via la synthèse vocale», a déclaré Lynch. «Le même modèle est responsable de décider quel comportement en boucle fermée appris exécuter sur le robot pour accomplir une commande donnée, chargeant des poids de réseau neuronal particuliers sur le GPU et exécutant une politique.»

Lynch a expliqué que la Figure 01 est conçue pour décrire son environnement de manière concise et peut appliquer le «sens commun» pour prendre des décisions, comme déduire que les plats seront placés dans un égouttoir. Elle peut également interpréter des déclarations vagues, telles que la faim, en actions, comme offrir une pomme, tout en expliquant ses actions.

Le lancement a suscité une réponse passionnée sur Twitter, de nombreuses personnes impressionnées par les capacités de la Figure 01 - et plus d'une ajoutant cela à la liste des jalons sur le chemin de la singularité.

«S'il vous plaît, dites-moi que votre équipe a regardé tous les films Terminator», a répondu quelqu'un.

«Il faut trouver John Connor le plus rapidement possible», a ajouté un autre.

Pour les développeurs et chercheurs en IA, Lynch a fourni un certain nombre de détails techniques.

«Tous les comportements sont pilotés par des politiques de transformation visuomotrice de réseaux neuronaux, qui transforment directement les pixels en actions", a déclaré M. Lynch. "Ces réseaux reçoivent des images embarquées à 10 Hz et génèrent des actions à 24 degrés de liberté (positions du poignet et angles des articulations des doigts) à 200 Hz.»

La première apparition de la Figure 01 intervient alors que les décideurs politiques et les dirigeants mondiaux tentent de faire face à la prolifération des outils d'IA dans le grand public. Alors que la plupart des discussions ont porté sur de grands modèles de langage comme ChatGPT d'OpenAI, Gemini de Google et Claude AI d'Anthropic, les développeurs cherchent également des moyens de donner aux IA des corps robotiques humanoïdes physiques.

Figure AI et OpenAI n'ont pas répondu immédiatement à la demande de commentaire de Decrypt.

«L'un est une sorte d'objectif utilitaire, c'est ce à quoi Elon Musk et d'autres aspirent,» a précédemment déclaré le professeur de génie industriel de l'UC Berkeley, Ken Goldberg, à Decrypt. «Beaucoup des travaux en cours actuellement—pour lesquels les gens investissent dans des entreprises comme Figure—c'est dans l'espoir que ces choses puissent travailler et être compatibles,» a-t-il déclaré, en particulier dans le domaine de l'exploration spatiale.

En plus de Figure, d'autres travaillant à fusionner l'IA avec la robotique sont Hanson Robotics, qui a présenté en 2016 son robot IA Desdemona.

«Il y a seulement quelques années, j'aurais pensé qu'avoir une conversation complète avec un robot humanoïde tout en planifiant et en exécutant ses propres comportements entièrement appris serait quelque chose que nous devrions attendre des décennies pour voir,» a déclaré Corey Lynch, ingénieur IA principal de Figure AI, sur Twitter. «Évidemment, beaucoup de choses ont changé.»

Édité par Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.