A OpenAI anunciou na quinta-feira um novo recurso chamado Operador que permite ao ChatGPT controlar um navegador virtual para realizar tarefas do mundo real, como pedir comida ou reservar um voo. Mas, por enquanto, destina-se a pessoas ricas.
A ferramenta está atualmente disponível apenas para assinantes Pro nos EUA (US$ 200 por mês) e é a primeira incursão da empresa na navegação autônoma na Web.
Isto destaca a emergência de um sistema financeiro escalonado onde aqueles que pagam mais têm acesso às melhores capacidades de IA. Ao mesmo tempo, os utilizadores de baixo custo estão limitados a modelos de baixo consumo, com funcionalidade limitada e talvez menos democráticos.
O sistema funciona através de operator.chatgpt.com, onde os usuários podem solicitar ao ChatGPT para realizar diversas tarefas online.
Houve várias tentativas de fazer algo semelhante no passado, desde a loja de plugins OpenAI até a promessa do grande modelo de ação popularizado pelo Rabbit. Ainda assim, a dependência de APIs tornou a configuração inconveniente e difícil.
O que torna isso diferente é como funciona. Em vez de depender de APIs como seus antecessores, o Operador controla um navegador baseado em nuvem e clica em botões e preenche formulários como um ser humano faria.
Cada vez que o Operador se move, ele faz uma captura de tela para demonstrar seu comportamento.
Por exemplo, se você precisar reservar ingressos para uma partida, a IA abrirá seu próprio navegador, visitará o site específico, procurará o jogo em questão e encontrará a melhor opção antes de solicitar a confirmação do pagamento.
Ele também usa evidências visuais para explicar o processo de tomada de decisão. Se as coisas derem errado, existe um botão “Assumir o controle” que permite que um humano assuma o volante.
Para ter sucesso onde outras empresas falharam, a OpenAI deve construir seus próprios modelos de IA que compreendam visualmente as informações exibidas pelos navegadores da web e controlem as ações com a entrada do teclado e do mouse. Este novo modelo, desenvolvido com GPT-4o, foi denominado Computer User Agent (CUA).
Isso é mais do que apenas seguir um script. A IA também pode ler e compreender layouts de sites, adaptar-se a diferentes designs e lidar com pop-ups inesperados e mensagens de erro.

Este sistema mostra alguns truques de festa impressionantes. Dê a ele uma foto de sua lista de compras bagunçada e escrita à mão, e o GPT-Vision não apenas a lerá, mas também pedirá tudo em sua mercearia favorita.
A OpenAI faz parceria com várias empresas para garantir operações tranquilas em toda a plataforma.
A IA pode navegar facilmente em serviços como Uber e DoorDash quando se trata de reservar uma viagem ou pedir comida. Isso ocorre porque a IA está pré-configurada para entender a interface.
No entanto, para sites não suportados, o sistema tenta concluir a tarefa usando recursos de controle do navegador. Nesse aspecto, a Operadora supera outras opções.
Como sempre, a OpenAI compartilhou alguns benchmarks. Superou outros modelos de última geração, pontuando 38,1% no OSWorld (Standard Operating System Processing Power). Em comparação, nosso melhor concorrente obteve 22% e WebArena (poder de processamento de e-mail) obteve 58,1%. -Site de comércio) vs. 36,2% dos concorrentes.

Dito isso, a equipe enfatizou que o Operador ainda está em pré-visualização de pesquisa, portanto erros e bugs são esperados.
Um problema potencial poderia fazer com que os usuários preocupados com a segurança hesitassem. Isso significa que você precisa confiar suas credenciais de login ao Operador.
Confiar na promessa da OpenAI de não armazenar dados confidenciais e fazer login com um navegador remoto é um pouco arriscado porque os navegadores em nuvem precisam de acesso à sua conta para fazer as coisas e não são compatíveis com navegadores locais.
Este recurso será implementado de forma mais ampla em breve e incluirá em seguida os assinantes Plus. Os desenvolvedores também não ficam para trás. A OpenAI planeja lançar o Operator por meio de sua API nas próximas semanas, potencialmente inaugurando uma nova geração de ferramentas de automação baseadas em IA.
OpenAI diz que mais instâncias surgirão além dos controles de navegação na nuvem. A equipe também disse durante a demonstração que está trabalhando para expandir sua lista de agentes de IA além dos atuais assistentes de uso geral.
Edição: Sebastian Sinclair e Josh Quittner
geralmente inteligente Boletim informativo
Uma jornada semanal de IA contada por Gen, um modelo generativo de IA.
