Abril 8, 2025
Antrópico testa capacidade de sabotagem da IA
 #ÚltimasNotícias #tecnologia

Antrópico testa capacidade de sabotagem da IA #ÚltimasNotícias #tecnologia

Continue apos a publicidade

Hot News

À medida que o entusiasmo em torno da IA ​​generativa continua a aumentar, a necessidade de regulamentações de segurança robustas torna-se cada vez mais clara.

Agora a Anthropic – a empresa por trás da Claude AI – está analisando como seus modelos podem enganar ou sabotar os usuários. A Anthropic acaba de lançar um artigo expondo sua abordagem.

VEJA TAMBÉM:

Sam Altman deixa o cargo de chefe do grupo de segurança da OpenAI

Continue após a publicidade

A pesquisa mais recente da Anthropic – intitulada “Avaliações de sabotagem para modelos de fronteira” – vem de sua equipe Alignment Science, impulsionada pela política de “Escalonamento Responsável” da empresa.

O objetivo é avaliar o quão capaz a IA pode ser em enganar os usuários ou até mesmo “subverter os sistemas que implementamos para supervisioná-los”. O estudo se concentra em quatro táticas específicas: Sabotagem de Decisão Humana, Sabotagem de Código, Sandbagging e Supervisão de Mina.

Pense nos usuários que levam o ChatGPT ao limite, tentando induzi-lo a gerar conteúdo impróprio ou imagens gráficas. Esses testes visam garantir que a IA não possa ser enganada e quebrar suas próprias regras.

Velocidade da luz mashável

Continue após a publicidade

No artigo, a Anthropic afirma que seu objetivo é estar preparado para a possibilidade de a IA evoluir para algo com capacidades perigosas. Por isso, submeteram os seus modelos Claude 3 Opus e 3.5 Sonnet a uma série de testes, concebidos para avaliar e melhorar os seus protocolos de segurança.

O teste de Decisão Humana concentrou-se em examinar como a IA poderia potencialmente manipular a tomada de decisão humana. O segundo teste, Code Sabotage, analisou se a IA poderia introduzir sutilmente bugs em bancos de dados de codificação. Modelos de IA mais fortes levaram, na verdade, a defesas mais fortes contra esses tipos de vulnerabilidades.

Os testes restantes – Sandbagging e Undermining Oversight – exploraram se a IA poderia ocultar as suas verdadeiras capacidades ou contornar os mecanismos de segurança incorporados no sistema.

Continue após a publicidade

Por enquanto, a pesquisa da Anthropic conclui que os atuais modelos de IA representam um risco baixo, pelo menos em termos destas capacidades maliciosas.

Continue após a publicidade

“Atualmente, mitigações mínimas são suficientes para enfrentar os riscos de sabotagem”, escreve a equipe, mas “parece que serão necessárias avaliações mais realistas e mitigações mais fortes assim que as capacidades melhorarem”.

Tradução: cuidado, mundo.

Tópicos
Cibersegurança com Inteligência Artificial

Continue após a publicidade

Siga-nos nas redes sociais:

Hotnews.pt |
Facebook |
Instagram |
Telegram

#hotnews #noticias #tecnologia #AtualizaçõesDiárias #SigaHotnews #FiquePorDentro #ÚltimasNotícias #InformaçãoAtual

Continue após a publicidade

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *