Htaccess - как заблокировать ClaudeBot

Материал из Wiki - Iphoster - the best ever hosting and support. 2005 - 2024
Перейти к:навигация, поиск

Htaccess - как заблокировать ClaudeBot

Пример user-agent в логах access nginx:

"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; [email protected])"


Блокируем через .htaccess сайта

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (Amazonbot|facebookexternalhit|SemrushBot|AhrefsBot|MegaIndex.ru|Bytespider|Bytedance|YouBot|PetalBot|BackupLand|ImagesiftBot|keys-so-bot|ReactorNetty|Feedly|ClaudeBot|GPTBot) [NC]
RewriteRule .* - [F,L]


Что такое ClaudeBot:

ClaudeBot — это веб-сканер, управляемый Anthropic, который загружает обучающие данные для своих LLM (больших языковых моделей), которые используются в таких продуктах искусственного интеллекта, как Claude.
facebookexternalhit - https://developers.facebook.com/docs/sharing/webmasters/crawler?locale=ru_RU
Краулер Facebook выполняет скрапинг HTML-данных приложений или сайтов, опубликованных на Facebook путем копирования и вставки ссылки или с помощью социального плагина Facebook. Краулер собирает, кэширует и показывает информацию о сайте или приложении, в том числе название, описание и миниатюрное изображение.