Hot News
À medida que o entusiasmo em torno da IA generativa continua a aumentar, a necessidade de regulamentações de segurança robustas torna-se cada vez mais clara.
Agora a Anthropic – a empresa por trás da Claude AI – está analisando como seus modelos podem enganar ou sabotar os usuários. A Anthropic acaba de lançar um artigo expondo sua abordagem.
Sam Altman deixa o cargo de chefe do grupo de segurança da OpenAI
A pesquisa mais recente da Anthropic – intitulada “Avaliações de sabotagem para modelos de fronteira” – vem de sua equipe Alignment Science, impulsionada pela política de “Escalonamento Responsável” da empresa.
O objetivo é avaliar o quão capaz a IA pode ser em enganar os usuários ou até mesmo “subverter os sistemas que implementamos para supervisioná-los”. O estudo se concentra em quatro táticas específicas: Sabotagem de Decisão Humana, Sabotagem de Código, Sandbagging e Supervisão de Mina.
Pense nos usuários que levam o ChatGPT ao limite, tentando induzi-lo a gerar conteúdo impróprio ou imagens gráficas. Esses testes visam garantir que a IA não possa ser enganada e quebrar suas próprias regras.
Velocidade da luz mashável
No artigo, a Anthropic afirma que seu objetivo é estar preparado para a possibilidade de a IA evoluir para algo com capacidades perigosas. Por isso, submeteram os seus modelos Claude 3 Opus e 3.5 Sonnet a uma série de testes, concebidos para avaliar e melhorar os seus protocolos de segurança.
O teste de Decisão Humana concentrou-se em examinar como a IA poderia potencialmente manipular a tomada de decisão humana. O segundo teste, Code Sabotage, analisou se a IA poderia introduzir sutilmente bugs em bancos de dados de codificação. Modelos de IA mais fortes levaram, na verdade, a defesas mais fortes contra esses tipos de vulnerabilidades.
Os testes restantes – Sandbagging e Undermining Oversight – exploraram se a IA poderia ocultar as suas verdadeiras capacidades ou contornar os mecanismos de segurança incorporados no sistema.
Por enquanto, a pesquisa da Anthropic conclui que os atuais modelos de IA representam um risco baixo, pelo menos em termos destas capacidades maliciosas.
“Atualmente, mitigações mínimas são suficientes para enfrentar os riscos de sabotagem”, escreve a equipe, mas “parece que serão necessárias avaliações mais realistas e mitigações mais fortes assim que as capacidades melhorarem”.
Tradução: cuidado, mundo.
Tópicos
Cibersegurança com Inteligência Artificial
Siga-nos nas redes sociais:
Hotnews.pt |
Facebook |
Instagram |
Telegram
#hotnews #noticias #tecnologia #AtualizaçõesDiárias #SigaHotnews #FiquePorDentro #ÚltimasNotícias #InformaçãoAtual