Hot News
Large Language Models (LLMs) podem não ser tão inteligentes quanto parecem, de acordo com um estudo de pesquisadores da Apple.
LLMs da OpenAI, Google, Meta e outros foram elogiados por suas impressionantes habilidades de raciocínio. Mas a pesquisa sugere que sua suposta inteligência pode estar mais próxima de uma “correspondência sofisticada de padrões” do que de um “verdadeiro raciocínio lógico”. Sim, até mesmo o modelo de raciocínio avançado o1 da OpenAI.
A referência mais comum para habilidades de raciocínio é um teste chamado GSM8K, mas por ser tão popular, existe o risco de contaminação de dados. Isso significa que os LLMs podem saber as respostas do teste porque foram treinados nessas respostas, e não por causa de sua inteligência inerente.
Rodada de financiamento da OpenAI avalia empresa em US$ 157 bilhões
Para testar isso, o estudo desenvolveu um novo benchmark denominado GSM-Symbolic que mantém a essência dos problemas de raciocínio, mas altera as variáveis, como nomes, números, complexidade, e acrescenta informações irrelevantes. O que eles descobriram foi uma surpreendente “fragilidade” no desempenho do LLM. O estudo testou mais de 20 modelos, incluindo o1 e GPT-4o da OpenAI, Gemma 2 do Google e Llama 3 da Meta. Com cada modelo, o desempenho do modelo diminuiu quando as variáveis foram alteradas.
A precisão diminuiu alguns pontos percentuais quando os nomes e as variáveis foram alterados. E, como observaram os pesquisadores, os modelos da OpenAI tiveram melhor desempenho do que outros modelos de código aberto. No entanto, a variação foi considerada “não negligenciável”, o que significa que qualquer variação real não deveria ter ocorrido. No entanto, as coisas ficaram realmente interessantes quando os pesquisadores acrescentaram “declarações aparentemente relevantes, mas inconseqüentes” à mistura.
Velocidade da luz mashável
Atualização gratuita do Apple Intelligence provavelmente chegará em breve, sugere vazamento
Para testar a hipótese de que os LLMs dependiam mais da correspondência de padrões do que do raciocínio real, o estudo adicionou frases supérfluas aos problemas matemáticos para ver como os modelos reagiriam. Por exemplo, “Oliver colhe 44 kiwis na sexta-feira. Depois, ele colhe 58 kiwis no sábado. No domingo, ele colhe o dobro do número de kiwis que colheu na sexta-feira, mas cinco deles eram um pouco menores que a média. Quantos kiwis Oliver tem?”
O resultado foi uma queda significativa no desempenho geral. O o1 Preview da OpenAI teve o melhor desempenho, com uma queda de 17,5% na precisão. Isso ainda é muito ruim, mas não tão ruim quanto o modelo Phi 3 da Microsoft, que teve um desempenho 65% pior.
ChatGPT-4, Gemini, MistralAI e outros unem forças nesta ferramenta pessoal de IA
No exemplo do kiwi, o estudo disse que os LLMs tendiam a subtrair os cinco kiwis menores da equação sem entender que o tamanho do kiwi era irrelevante para o problema. Isto indica que “os modelos tendem a converter declarações em operações sem compreender verdadeiramente o seu significado”, o que valida a hipótese dos investigadores de que os LLMs procuram padrões em problemas de raciocínio, em vez de compreenderem o conceito de forma inata.
O estudo não mediu palavras sobre suas descobertas. Testar modelos no benchmark que inclui informações irrelevantes “expõe uma falha crítica na capacidade dos LLMs de compreender genuinamente conceitos matemáticos e discernir informações relevantes para a resolução de problemas”. No entanto, vale a pena mencionar que os autores deste estudo trabalham para a Apple, que é obviamente um grande concorrente do Google, Meta e até da OpenAI – embora a Apple e a OpenAI tenham uma parceria, a Apple também está a trabalhar nos seus próprios modelos de IA.
Dito isto, a aparente falta de habilidades de raciocínio formal dos LLMs não pode ser ignorada. Em última análise, é um bom lembrete para moderar o entusiasmo pela IA com um ceticismo saudável.
Tópicos
Inteligência Artificial da Apple
#hotnews #noticias #tecnologia #AtualizaçõesDiárias #SigaHotnews #FiquePorDentro #ÚltimasNotícias #InformaçãoAtual