Estudo da Apple revela grande falha de IA em OpenAI, Google e Meta LLMs #ÚltimasNotícias #tecnologia

Continue apos a publicidade

Hot News

Large Language Models (LLMs) podem não ser tão inteligentes quanto parecem, de acordo com um estudo de pesquisadores da Apple.

LLMs da OpenAI, Google, Meta e outros foram elogiados por suas impressionantes habilidades de raciocínio. Mas a pesquisa sugere que sua suposta inteligência pode estar mais próxima de uma “correspondência sofisticada de padrões” do que de um “verdadeiro raciocínio lógico”. Sim, até mesmo o modelo de raciocínio avançado o1 da OpenAI.

A referência mais comum para habilidades de raciocínio é um teste chamado GSM8K, mas por ser tão popular, existe o risco de contaminação de dados. Isso significa que os LLMs podem saber as respostas do teste porque foram treinados nessas respostas, e não por causa de sua inteligência inerente.

VEJA TAMBÉM:

Continue após a publicidade

Rodada de financiamento da OpenAI avalia empresa em US$ 157 bilhões

Para testar isso, o estudo desenvolveu um novo benchmark denominado GSM-Symbolic que mantém a essência dos problemas de raciocínio, mas altera as variáveis, como nomes, números, complexidade, e acrescenta informações irrelevantes. O que eles descobriram foi uma surpreendente “fragilidade” no desempenho do LLM. O estudo testou mais de 20 modelos, incluindo o1 e GPT-4o da OpenAI, Gemma 2 do Google e Llama 3 da Meta. Com cada modelo, o desempenho do modelo diminuiu quando as variáveis foram alteradas.

A precisão diminuiu alguns pontos percentuais quando os nomes e as variáveis foram alterados. E, como observaram os pesquisadores, os modelos da OpenAI tiveram melhor desempenho do que outros modelos de código aberto. No entanto, a variação foi considerada “não negligenciável”, o que significa que qualquer variação real não deveria ter ocorrido. No entanto, as coisas ficaram realmente interessantes quando os pesquisadores acrescentaram “declarações aparentemente relevantes, mas inconseqüentes” à mistura.

Velocidade da luz mashável

Continue após a publicidade

VEJA TAMBÉM:

Atualização gratuita do Apple Intelligence provavelmente chegará em breve, sugere vazamento

Para testar a hipótese de que os LLMs dependiam mais da correspondência de padrões do que do raciocínio real, o estudo adicionou frases supérfluas aos problemas matemáticos para ver como os modelos reagiriam. Por exemplo, “Oliver colhe 44 kiwis na sexta-feira. Depois, ele colhe 58 kiwis no sábado. No domingo, ele colhe o dobro do número de kiwis que colheu na sexta-feira, mas cinco deles eram um pouco menores que a média. Quantos kiwis Oliver tem?”

O resultado foi uma queda significativa no desempenho geral. O o1 Preview da OpenAI teve o melhor desempenho, com uma queda de 17,5% na precisão. Isso ainda é muito ruim, mas não tão ruim quanto o modelo Phi 3 da Microsoft, que teve um desempenho 65% pior.

Continue após a publicidade

VEJA TAMBÉM:

ChatGPT-4, Gemini, MistralAI e outros unem forças nesta ferramenta pessoal de IA

No exemplo do kiwi, o estudo disse que os LLMs tendiam a subtrair os cinco kiwis menores da equação sem entender que o tamanho do kiwi era irrelevante para o problema. Isto indica que “os modelos tendem a converter declarações em operações sem compreender verdadeiramente o seu significado”, o que valida a hipótese dos investigadores de que os LLMs procuram padrões em problemas de raciocínio, em vez de compreenderem o conceito de forma inata.

O estudo não mediu palavras sobre suas descobertas. Testar modelos no benchmark que inclui informações irrelevantes “expõe uma falha crítica na capacidade dos LLMs de compreender genuinamente conceitos matemáticos e discernir informações relevantes para a resolução de problemas”. No entanto, vale a pena mencionar que os autores deste estudo trabalham para a Apple, que é obviamente um grande concorrente do Google, Meta e até da OpenAI – embora a Apple e a OpenAI tenham uma parceria, a Apple também está a trabalhar nos seus próprios modelos de IA.

Continue após a publicidade

Dito isto, a aparente falta de habilidades de raciocínio formal dos LLMs não pode ser ignorada. Em última análise, é um bom lembrete para moderar o entusiasmo pela IA com um ceticismo saudável.

Tópicos
Inteligência Artificial da Apple

Leia a matéria completa

Siga-nos nas redes sociais:

Continue após a publicidade

Hotnews.pt |
Facebook |
Instagram |
Telegram

#hotnews #noticias #tecnologia #AtualizaçõesDiárias #SigaHotnews #FiquePorDentro #ÚltimasNotícias #InformaçãoAtual

Continue após a publicidade

Hot News

Share this:

Deixe um comentário Cancelar resposta

Você pode gostar

A Lyft está permitindo que você leve seu cachorro com você — veja como funcionam os novos ‘Pet Rides’ #ÚltimasNotícias #tecnologia

Caça-asteroides da NASA é desligado após 15 anos no espaço #ÚltimasNotícias #tecnologia

Como a tecnologia está transformando a ajuda em desastres após os furacões Helene e Milton #ÚltimasNotícias