Après des semaines de battage médiatique, OpenAI a publié son premier agent d’intelligence artificielle, Operator. Il s’agit d’une application web capable d’effectuer des tâches simples dans un navigateur, comme réserver des billets de concert ou passer une commande sur une place de marché. Il est basé sur le nouveau modèle Computer-Using Agent (CUA).
L’entreprise affirme que son outil surpasse ses pairs, notamment Computer Use d’Anthropic (qui peut également effectuer des tâches simples sur un PC) et Mariner de Google DeepMind (un agent de navigation sur le web basé sur Gemini 2.0).
Le fait que trois des plus grandes entreprises d’IA au monde se concentrent sur un seul domaine est clair : un nouveau front est apparu dans la course au leadership en matière d’IA : nos écrans d’ordinateur.
L’opérateur « lit » l’écran, analyse les pixels et effectue des actions, interagissant avec les interfaces graphiques comme un humain. Le réseau neuronal effectue des tâches sur la plupart des sites web en répétant un cycle : il balaie l’écran, effectue une action, balaie à nouveau et effectue une autre action, et ainsi de suite.
L’AUC divise les tâches en petites étapes et les exécute de manière séquentielle, en revenant aux étapes précédentes si elle rencontre des difficultés. OpenAI indique que le réseau neuronal a été entraîné à l’aide de méthodes similaires à celles utilisées pour les modèles de raisonnement o1 et o3.
L’entreprise a testé l’agent sur un certain nombre de tâches spécifiques à l’industrie. Par exemple, dans OSWorld, qui teste des compétences telles que la fusion de PDF ou le travail avec des images, il a obtenu un score de 38,1 %, contre 22,0 % pour Computer Use. À titre de comparaison, le score moyen des humains est de 72,4 %. Dans le test WebVoyager, qui évalue l’efficacité de l’exécution des tâches dans le navigateur, Operator a obtenu 87 %, Mariner 83,5 % et Computer Use 56 %.
Pour l’instant, le nouvel outil ne peut effectuer que des tâches dans le navigateur. OpenAI prévoit d’étendre ses capacités à l’avenir grâce à une API.
Pour l’utiliser, il suffit de taper des instructions dans une zone de texte. Cependant, au lieu d’ouvrir un navigateur sur votre ordinateur, le système les envoie à un navigateur distant fonctionnant sur un serveur OpenAI. L’entreprise affirme que cela améliore l’efficacité.
Comme l’agent fonctionne dans le nuage, il peut effectuer plusieurs tâches simultanément. Lors d’une démonstration, l’un des créateurs lui a demandé d’utiliser la plateforme en ligne OpenTable pour lui réserver une table pour deux à 18 h 30 au restaurant Octavia à San Francisco. Il a géré habilement cette tâche en plusieurs étapes.
Pour l’instant, Operator n’est disponible aux États-Unis qu’avec un abonnement ChatGPT Pro. L’entreprise promet d’étendre l’outil à d’autres utilisateurs à l’avenir.