Os chatbots de IA podem ser usados para prometer que as respostas de outros chatbots estejam corretas?

Os chatbots de IA estão cada vez mais confortáveis na arte da conversação humana. O problema, dizem os especialistas, é que eles tendem a dar respostas imprecisas ou absurdas, conhecidas porquê “alucinações”.

Agora, os pesquisadores encontraram uma solução potencial: usar chatbots para detectar erros que outros chatbots cometeram.

Sebastian Farquhar, pesquisador da computação da Universidade de Oxford, é coautor de um estudo publicado quarta-feira na revista Nature que postula que chatbots porquê o ChatGPT ou o Gemini do Google podem ser usados para varar inverdades da IA.

Os chatbots utilizam grandes modelos de linguagem, ou LLMs, que consomem grandes quantidades de texto da Internet e podem ser utilizados para diversas tarefas, incluindo a geração de texto através da previsão da próxima termo numa frase. Os bots encontram padrões por tentativa e erro, e o feedback humano é logo usado para ajustar o padrão.

Mas há uma desvantagem: os chatbots não conseguem pensar porquê os humanos e não entendem o que dizem.

Para testar isso, Farquhar e seus colegas fizeram perguntas a um chatbot e, em seguida, usaram um segundo chatbot para revisar as respostas em procura de inconsistências, semelhante à forma porquê a polícia pode tentar enganar um suspeito, fazendo-lhe a mesma pergunta repetidamente. Se as respostas tivessem significados muito diferentes, isso significava que provavelmente estavam distorcidas.

SEJA PEGADO

Histórias para mantê-lo informado

Ele disse que o chatbot respondeu a um conjunto de perguntas triviais comuns, muito porquê a problemas de matemática do ensino fundamental.

Os pesquisadores verificaram a precisão da avaliação do chatbot comparando-a com a avaliação humana no mesmo subconjunto de questões. Eles descobriram que o chatbot concordou com os avaliadores humanos 93% das vezes, enquanto os avaliadores humanos concordaram entre si 92% das vezes – perto o suficiente para que os chatbots que avaliam uns aos outros “provavelmente não sejam preocupantes”, disse Farquhar.

Farquhar disse que, para o leitor médio, identificar alguns erros de IA é “muito difícil”.

Ele muitas vezes tem dificuldade em detectar tais anomalias ao usar LLMs em seu trabalho porque os chatbots “muitas vezes dizem o que você quer ouvir, inventando coisas que não são unicamente plausíveis, mas que seriam úteis se fossem verdadeiras, um tanto que os pesquisadores rotularam de ‘bajulação’”, ele disse em um e-mail.

Respostas não confiáveis são uma barreira para a adoção generalizada de chatbots de IA, mormente em áreas médicas porquê a radiologia, onde “poderiam simbolizar um risco para a vida humana”, disseram os pesquisadores. Também podem levar a precedentes legais fabricados ou a notícias falsas.

Nem todo mundo está convicto de que usar chatbots para julgar as respostas de outros chatbots seja uma ótima teoria.

Num item publicado no News and Views na Nature, Karin Verspoor, professora de tecnologias de computação na Universidade RMIT em Melbourne, Austrália, disse que há riscos em “combater queimação com queimação”.

O número de erros produzidos por um LLM parece ser reduzido se um segundo chatbot agrupar as respostas em clusters semanticamente semelhantes, mas “usar um LLM para julgar um método fundamentado em LLM parece rodear e pode ser tendencioso”, escreveu Verspoor.

“Os pesquisadores precisarão mourejar com a questão de saber se esta abordagem está realmente controlando a produção de LLMs ou inadvertidamente alimentando o queimação ao colocar vários sistemas em camadas que são propensos a alucinações e erros imprevisíveis”, acrescentou ela.

Farquhar vê isso “mais porquê edificar uma mansão de madeira com vigas de madeira porquê suporte”.

“Não há zero de incomum em ter componentes de reforço apoiando-se uns aos outros”, disse ele.

Fonte

SEJA PEGADO

Deixe um comentário Cancelar resposta