Hot News
Novos padrões estão sendo desenvolvidos para estender o Protocolo de Exclusão de Robôs e as tags Meta Robots, permitindo-lhes impedir que todos os rastreadores de IA usem conteúdo da web disponível publicamente para fins de treinamento. A proposta, elaborada por Krishna Madhavan, gerente principal de produtos da Microsoft AI, e Fabrice Canel, gerente principal de produtos da Microsoft Bing, facilitará o bloqueio de todos os rastreadores principais do AI Training com uma regra simples que pode ser aplicada a cada rastreador individual.
Praticamente todos os rastreadores legítimos obedecem às tags Robots.txt e Meta Robots, o que torna esta proposta um sonho tornado realidade para editores que não desejam que seu conteúdo seja usado para fins de treinamento de IA.
Força-Tarefa de Engenharia da Internet (IETF)
A Internet Engineering Task Force (IETF) é um grupo internacional de criação de padrões da Internet fundado em 1986 que coordena o desenvolvimento e a codificação de padrões com os quais todos podem concordar voluntariamente. Por exemplo, o Protocolo de Exclusão de Robôs foi criado de forma independente em 1994 e em 2019 o Google propôs que a IETF o adotasse como padrão oficial com definições acordadas. Em 2022, a IETF publicou um Protocolo oficial de Exclusão de Robôs que define o que é e estende o protocolo original.
Três maneiras de bloquear bots de treinamento de IA
O rascunho da proposta para bloquear bots de treinamento de IA sugere três maneiras de bloquear os bots:
- Protocolos Robots.txt
- Elementos HTML de Meta Robôs
- Cabeçalho de resposta da camada de aplicativo
1. Robots.Txt para bloquear robôs de IA
O projeto de proposta procura criar regras adicionais que estenderão o Protocolo de Exclusão de Robôs (Robots.txt) aos Robôs de Treinamento de IA. Isso trará alguma ordem e dará aos editores a escolha de quais robôs podem rastrear seus sites.
A adesão ao protocolo Robots.txt é voluntária, mas todos os rastreadores legítimos tendem a obedecê-lo.
O rascunho explica o propósito das novas regras do Robots.txt:
“Embora o Protocolo de Exclusão de Robôs permita que os proprietários de serviços controlem como, se é que o fazem, os clientes automatizados conhecidos como rastreadores podem acessar os URIs em seus serviços, conforme definido por [RFC8288]o protocolo não fornece controles sobre como os dados retornados por seu serviço podem ser usados no treinamento de modelos generativos de base de IA.
Os desenvolvedores de aplicativos são solicitados a respeitar essas tags. No entanto, as tags não são uma forma de autorização de acesso.”
Uma qualidade importante das novas regras do robots.txt e dos elementos HTML dos meta-robôs é que os rastreadores legítimos de treinamento de IA tendem a concordar voluntariamente em seguir esses protocolos, algo que todos os bots legítimos fazem. Isso simplificará o bloqueio de bots para editores.
A seguir estão as regras propostas do Robots.txt:
- DisallowAITraining – instrui o analisador a não usar os dados para o modelo de linguagem de treinamento de IA.
- AllowAITraining -instrui o analisador de que os dados podem ser usados para o modelo de linguagem de treinamento de IA.
2. Elemento HTML (Meta Tag de Robôs)
A seguir estão as diretivas de meta-robôs propostas:
3. Cabeçalho de resposta da camada de aplicativo
Os cabeçalhos de resposta da camada de aplicativo são enviados por um servidor em resposta à solicitação de uma página da web por um navegador. A proposta sugere adicionar novas regras aos cabeçalhos de resposta da camada de aplicação para robôs:
“DisallowAITraining – instrui o analisador a não usar os dados para o modelo de linguagem de treinamento de IA.
AllowAITraining – instrui o analisador de que os dados podem ser usados para o modelo de linguagem de treinamento de IA.”
Fornece maior controle
As empresas de IA foram processadas sem sucesso em tribunal por usarem dados disponíveis publicamente. As empresas de IA afirmaram que é justo rastrear sites disponíveis publicamente, assim como os motores de busca têm feito há décadas.
Esses novos protocolos dão aos editores da web controle sobre rastreadores cuja finalidade é consumir dados de treinamento, alinhando esses rastreadores com os rastreadores de pesquisa.
Leia a proposta na IETF:
Extensão do protocolo de exclusão de robôs para gerenciar o uso de conteúdo de IA
Imagem em destaque da Shutterstock/ViDI Studio
Siga-nos nas redes sociais:
Hotnews.pt |
Facebook |
Instagram |
Telegram
#hotnews #noticias #tecnologia #AtualizaçõesDiárias #SigaHotnews #FiquePorDentro #ÚltimasNotícias #InformaçãoAtual