Setembro 20, 2024
Google confirma que Robots.txt não pode impedir acesso não autorizado
 #ÚltimasNotícias #tecnologia

Google confirma que Robots.txt não pode impedir acesso não autorizado #ÚltimasNotícias #tecnologia

Hot News

Gary Illyes, do Google, confirmou uma observação comum de que o robots.txt tem controle limitado sobre acesso não autorizado por rastreadores. Gary então ofereceu uma visão geral dos controles de acesso que todos os SEOs e proprietários de sites devem conhecer.

Argumento comum sobre Robots.txt

Parece que sempre que o assunto Robots.txt surge, sempre tem aquela pessoa que precisa ressaltar que ele não pode bloquear todos os rastreadores.

Gary concordou com esse ponto:

“robots.txt não pode impedir acesso não autorizado ao conteúdo”, um argumento comum que aparece em discussões sobre robots.txt atualmente; sim, parafraseei. Essa alegação é verdadeira, no entanto, não acho que alguém familiarizado com robots.txt tenha afirmado o contrário.”

Em seguida, ele mergulhou fundo na desconstrução do que bloquear rastreadores realmente significa. Ele enquadrou o processo de bloquear rastreadores como a escolha de uma solução que inerentemente controla ou cede o controle a um site. Ele enquadrou isso como uma solicitação de acesso (navegador ou rastreador) e o servidor respondendo de várias maneiras.

Ele listou exemplos de controle:

  • Um robots.txt (deixa a cargo do rastreador decidir se deseja ou não rastrear).
  • Firewalls (WAF também conhecido como firewall de aplicativo da web – firewall controla o acesso)
  • Proteção de senha

Aqui estão seus comentários:

“Se você precisa de autorização de acesso, precisa de algo que autentique o solicitante e então controle o acesso. Firewalls podem fazer a autenticação com base em IP, seu servidor web com base em credenciais entregues ao HTTP Auth ou um certificado para seu cliente SSL/TLS, ou seu CMS com base em um nome de usuário e uma senha, e então um cookie 1P.

Há sempre alguma informação que o solicitante passa para um componente de rede que permitirá que esse componente identifique o solicitante e controle seu acesso a um recurso. robots.txt, ou qualquer outra diretiva de hospedagem de arquivo para esse assunto, entrega a decisão de acessar um recurso ao solicitante, o que pode não ser o que você quer. Esses arquivos são mais como aquelas irritantes barras de controle de faixa em aeroportos que todo mundo quer simplesmente passar, mas não passa.

Há um lugar para suportes, mas também há um lugar para portas de segurança e íris sobre seu Stargate.

TL;DR: não pense em robots.txt (ou outras diretivas de hospedagem de arquivos) como uma forma de autorização de acesso, use as ferramentas adequadas para isso, pois há muitas.”

Use as ferramentas adequadas para controlar bots

Há muitas maneiras de bloquear scrapers, robôs hackers, rastreadores de pesquisa, visitas de agentes de usuário de IA e rastreadores de pesquisa. Além de bloquear rastreadores de pesquisa, um firewall de algum tipo é uma boa solução porque eles podem bloquear por comportamento (como taxa de rastreamento), endereço IP, agente de usuário e país, entre muitas outras maneiras. Soluções típicas podem ser no nível do servidor com algo como Fail2Ban, baseado em nuvem como Cloudflare WAF ou como um plugin de segurança do WordPress como Wordfence.

Leia a postagem de Gary Illyes no LinkedIn:

robots.txt não pode impedir acesso não autorizado ao conteúdo

Imagem em destaque por Shutterstock/Ollyy

Siga-nos nas redes sociais:

Hotnews.pt |
Facebook |
Instagram |
Telegram

#hotnews #noticias #tecnologia #AtualizaçõesDiárias #SigaHotnews #FiquePorDentro #ÚltimasNotícias #InformaçãoAtual

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *