A OpenAI está por trás de um dos chatbots de inteligência artificial mais conhecidos, o ChatGPT. Seu web crawler, conhecido como GPTBot, escaneia páginas da web para ajudar a melhorar seus modelos de IA.
O The Verge foi o primeiro a relatar que o New York Times bloqueou o GPTBot em seu site. O The Guardian subsequentemente descobriu que outros importantes sites de notícias, incluindo CNN, Reuters, Chicago Tribune, ABC e Australian Community Media (ACM), que inclui marcas como Canberra Times e Newcastle Herald, também parecem ter proibido o web crawler.
Os chamados grandes modelos de linguagem, como o ChatGPT, exigem vastas quantidades de informações para treinar seus sistemas e permitir que respondam a consultas de usuários de maneira semelhante aos padrões de linguagem humana. No entanto, as empresas por trás deles muitas vezes mantêm em sigilo a presença de material protegido por direitos autorais em seus conjuntos de dados.
O bloqueio ao GPTBot pode ser visto nos arquivos robots.txt dos editores, que informam aos rastreadores de mecanismos de busca e outras entidades quais páginas eles podem visitar.
"Ao permitir que o ChatGPT Bot acesse seu site, você pode ajudar os modelos de IA a se tornarem mais precisos e a melhorar suas capacidades gerais e segurança", afirmou a OpenAI em um post de blog que incluiu instruções sobre como proibir o rastreador.
Todas as saídas examinadas adicionaram o bloqueio em agosto. Algumas também proibiram o CCBot, o web crawler de um repositório aberto de dados da web conhecido como Common Crawl, que também foi usado em projetos de IA.
A CNN confirmou ao The Guardian Austrália que bloqueou recentemente o GPTBot em todos os seus títulos, mas não comentou se a marca planeja tomar medidas adicionais em relação ao uso de seu conteúdo em sistemas de IA.
Um porta-voz da Reuters disse que revisa regularmente seus robots.txt e termos e condições do site.
"Como a propriedade intelectual é o sustentáculo de nosso negócio, é imperativo que protejamos os direitos autorais de nosso conteúdo", disse ela.
Os termos de serviço do New York Times foram atualizados recentemente para tornar a proibição contra "a raspagem de nosso conteúdo para treinamento e desenvolvimento de IA... ainda mais clara", de acordo com um porta-voz.
A partir de 3 de agosto, as regras do site explicitamente proíbem o uso do conteúdo do editor para "o desenvolvimento de qualquer programa de software, incluindo, mas não se limitando a, o treinamento de um sistema de aprendizado de máquina ou inteligência artificial (IA) como o ChatJPT" sem consentimento.
Veículos de notícias em todo o mundo enfrentam decisões sobre se devem usar a IA como parte da coleta de notícias e também como lidar com a possibilidade de seu conteúdo ser utilizado em treinamentos por empresas que desenvolvem sistemas de IA.
A inteligência artificial como o ChatGPT é uma ameaça ao jornalismo ou a tecnologia se autodestruirá?
Em meados de agosto, veículos como a Agence France-Presse e a Getty Images assinaram uma carta aberta pedindo regulamentação da IA e não só do ChatGPT, incluindo transparência sobre "a composição de todos os conjuntos de treinamento usados para criar modelos de IA" e consentimento para o uso de material protegido por direitos autorais.
O Google propôs que os sistemas de IA possam raspar o trabalho de editores, a menos que eles optem explicitamente por não fazê-lo.
Em uma contribuição para a revisão do governo australiano sobre o quadro regulatório da IA, a empresa argumentou a favor de "sistemas de direitos autorais que permitam o uso apropriado e justo de conteúdo protegido por direitos autorais para treinar modelos de IA na Austrália com uma ampla e diversificada gama de dados, enquanto apoiam exceções viáveis".
ChatGPT, ChatGPT, ChatGPT, ChatGPT, ChatGPT, ChatGPT