Cloudflare разработал инструмент для борьбы с AI-ботами

Cloudflare представил новый инструмент для борьбы с AI-ботами, помогающий предотвратить сбор данных с веб-сайтов для обучения ИИ моделей, защищая их от нечестной активности и повышая безопасность онлайн-пространства

Новости 2024 07 06

Cloudflare представила инструмент для борьбы с AI-ботами

Компания Cloudflare разработала новый, бесплатный инструмент для борьбы с ботами, которые сканируют сайты, размещенные на их платформе, для сбора данных для обучения AI моделей. В то время как многие компании позволяют владельцам сайтов блокировать ботов через robots.txt, не все AI сканеры соблюдают эти правила. Cloudflare провела анализ трафика AI ботов и краулеров, чтобы улучшить автоматическое обнаружение. Их модели могут выявить ботов, которые пытаются обойти детекцию, эмулируя поведение обычного пользователя веб-браузера. Они также предоставляют форму для жалоб на подозрительные AI боты и будут продолжать ручное блокирование таких ботов. Все это связано с ростом запросов на данные для обучения моделей AI и беспокойством сайтов о нелегальном использовании их контента AI компаниями.

Проблема с роботом.txt

Cloudflare разработал инструмент для борьбы с AI-ботами, которые не всегда соблюдают стандартные правила исключения ботов для получения конкурентного преимущества в гонке за искусственным интеллектом. Некоторые поставщики ИИ, такие как Perplexity, OpenAI и Anthropic, были обвинены в игнорировании правил robots.txt при сборе данных с веб-сайтов. Cloudflare анализировала трафик ИИ-ботов и краулеров для настройки моделей автоматического обнаружения ботов, которые могут пытаться избежать обнаружения, подражая поведению обычных пользователей веб-браузера. Инструмент Cloudflare поможет обнаруживать подозрительные ИИ-боты, но это не гарантирует полной защиты от них, а многие владельцы веб-сайтов все равно сталкиваются с риском потери трафика и конкуренции со стороны искусственного интеллекта.

Анализ трафика и разработка модели

Cloudflare разработал инструмент для направленной борьбы с ботами, скрейпящими сайты для обучения моделей искусственного интеллекта (ИИ). Обнаружив, что не все ИИ скраперы соблюдают правила и блокируют стандартные правила исключения ботов, Cloudflare провел анализ трафика ботов и сканеров сети. Модели обнаружения ботов, разработанные компанией, учитывают потенциальные попытки ИИ ботов избежать обнаружения, например, имитируя поведение и внешний вид пользователей веб-браузеров. Cloudflare выступает за защиту контента от недобросовестного использования ИИ, предлагая хостам форму для сообщения о подозрительных ИИ ботах и краулерах, а также обещая дальнейшее вручную блокировать их.

Подача жалоб и черный список

Cloudflare создала специальный инструмент для борьбы с AI-ботами, которые сканируют веб-сайты хостинг-платформы с целью собрать данные для обучения искусственных интеллектов. Некоторые поставщики AI, включая Google, OpenAI и Apple, предоставляют владельцам сайтов возможность блокировать ботов, используемых для сбора данных и обучения моделей, через файл robots.txt. Однако не все боты AI соблюдают эти правила. Для борьбы с проблемой, Cloudflare анализирует трафик AI ботов и краулеров для тонкой настройки моделей автоматического обнаружения ботов. Инструмент позволяет облегчить процесс выявления тех AI ботов, которые пытаются обмануть систему, имитируя поведение обычного пользователя веб-браузера. Со временем Cloudflare будет вносить AI ботов в черный список для защиты от недобросовестных действий.

Реакция сайтов на ИИ-ботов

Многие веб-сайты начали реагировать на угрозу, которую представляют для них ИИ-боты. Стремление провайдеров ИИ использовать контент сайтов для обучения моделей без согласования может привести к блокировке ботов и сканеров. Исследования показывают, что уже около 26% из топ-1000 сайтов в интернете заблокировали бота OpenAI, а также более 600 новостных издателей приняли такие меры. Ситуация подчеркивает необходимость защиты контента от недобросовестного использования и возможных нарушений законов о правах интеллектуальной собственности.

Ограничения метода блокировки

Некоторые поставщики искусственного интеллекта (ИИ) пренебрегают стандартными правилами блокировки ботов на веб-сайтах, чтобы получить преимущество в разработке моделей ИИ. Одной из компаний, которая была обвинена в подобной деятельности, стала поисковая система ИИ Perplexity. Ее обвинили в том, что она выдавала себя за обычных посетителей для сбора данных с веб-сайтов. Это пример того, как некорректное поведение искусственного интеллекта может привести к нарушению стандартов безопасности в онлайн-пространстве.

Эффективность инструментов

Инструменты, созданные компанией Cloudflare, направлены на борьбу со скрытыми ИИ-ботами, которые могут использоваться для сбора данных и обучения моделей искусственного интеллекта. Некоторые провайдеры ИИ, включая Google, OpenAI и Apple, предоставляют владельцам веб-сайтов возможность блокировать ботов, используемых для сбора данных и тренировки моделей, путем изменения файлов robots.txt. Однако Cloudflare обнаружил, что не все ИИ-боты уважают эти правила. Поэтому компания разработала инструменты автоматического обнаружения и блокировки подозрительного трафика, который может пытаться скрыть свою природу, подражая поведению обычного пользователя веб-браузера. Такие инструменты имеют потенциал помочь в защите ресурсов от нежелательных ботов, но также возникают сложности связанные с риском потери реферального трафика, если издатели заблокируют определенных ИИ-ботов и краулеров, препятствуя индексации их контента определенными ИИ-инструментами.