- Автор темы
- #1
Интернет-современность диктует условия. Владельцам веб-ресурсов частенько приходится взаимодействовать с роботами. Это своеобразное явление не встретишь в обыденной, физической жизни. В контексте сегодняшней темы разговор идет об алгоритмах, осуществляющих контроль доступности сайтов, проведение анализа контента, поисковой выдачи, другие операции, не всегда полезные для проектов. Чересчур активная деятельность роботов может привести к ухудшению доступности, работоспособности ресурса. Тогда возникает вопрос: как блокировать ботов на сайте, обеспечить нормальное функционирование веба.
Что такое роботы в контексте веба
Роботы (их еще называют ботами) представляют собой некий комплект программ, алгоритмов, заточенных под определенные цели. Для их достижения боты, посещая онлайн-проекты, собирают различные сведения для последующего анализа.Армию роботов условно делят на «хороших», «плохих». Все зависит от потребностей владельцев платформ: одни могут приветствовать индексацию на Yandex, другим она мешает. Есть варианты, которые неприемлемы для всех:
- распространение вирусных программ;
- спровоцированный скачок трафика;
- мошенничество посредством кликов.
Как определить, что сайт посещают боты
Помимо нетипичного поведения пользователей на сайте, необъяснимого скачка посещаемости, трафика из нетипичных для проекта регионов, визиты «гостей» помогут обнаружить несколько способов:- С помощью Яндекс.Метрики определяют, сколько было посещений проекта, в том числе без учета нежелательных визитеров. Анализируя показатели ежедневно, приходит понимание, в какой конкретно период ресурс пользуется у них спросом.
- Содержащийся в Метрике «Вебвизор» позволит ознакомиться с действиями пользователей на страницах веб-площадки.
- Проведение логического анализа статистических данных. Если на ресурсе наблюдается немотивированный скачок трафика — это повод найти источник, поставляющий нежданных «гостей». Необходимо отследить, проанализировать тип переходов, если основная часть — прямые, возможно, речь идет о нашествии роботов.
Какие боты считаются легитимными
Легитимные — «хорошие» боты, действующие во благо сайта. Они заходят на веб-площадку в целях поисковой оптимизации, получения определенных сведений, аналитики.Не рекомендуется хороших ботов блокировать на сайте, это может уменьшить видимость проекта в поисковиках, других платформах. К блокировке обращаются только для достижения определенных бизнес-целей.
Отличают несколько типов легитимных роботов:
- мониторинговые (типа Pingdom);
- для проверки бэклинков;
- для соцсетей;
- фидфетчеры;
- партнерские;
- сканеры поисковиков.
Как блокировать «вредных» ботов
Если от провайдера пришло уведомление, что превышен выделенный объем процессорного времени — самое время начать блокировать боты на сайте. Это приведет к уменьшению нагрузки на сервер. Не следует банить всех подряд, под «раздачу» могут попасть user-агенты, являющиеся реальными людьми.Через Apache и .htaccess
Блокировать подобным образом удобно — боты, сканеры часто не обращают внимание на директивы robots.txt. Применение файла сервера Апач .htaccess — универсальный метод защиты от спама. Он должен находиться в корневой папке ресурса на сервере с указанием «универсальный блокировщик спам-ботов».Существует нюанс при применении данного способа: большой объем записей спровоцирует замедление работы портала.
Через Nginx
Чтобы сделать блокировку через Nginx, используются следующие способы:- По user agent — происходит бан визитеров, имеющих в заголовке запроса строчку, подпадающую под условия фильтрации.
- По IP. Блокируется определенный или несколько хостов.
- Referer. Метод помогает перекрыть трафик с нежелательного источника.
Через robots.txt
Это несложный текстовый файл, содержащий инструкцию для поисковиков — что разрешается, что запрещается. Таким способом, в целях уменьшения нагрузки может ограничиваться индексирование некоторых страничек сайта. Но существует условие: робот не должен игнорировать правила, содержащиеся в файле.Необходимо отслеживать, какие страницы закрываются для данных программ. Непродуманное закрытие может спровоцировать ошибки индексации.
Блокировка по IP
Блокировать по IP имеет смысл, когда с него посылается большое количество запросов. Однако, иногда это не решит проблемы — в запасе у «плохих парней» много адресов. При попадании в бан одного программа быстро переключается на следующий адрес.Защита от ботов с помощью Cloudflare
Эту программу используют в качестве защиты многие проекты. Причиной тому ряд достоинств:- помогает снизить нагрузку на ресурс, кэшируя у себя изображения;
- дает защиту от DDoS-атак;
- при определенной настройке распространяет защиту на роботов, не поддерживающих HTTP2;
- все вышеназванные пункты включаются в бесплатный тариф.
- не защищает от накрутки имитации пользовательской деятельности;
- временами может «прилетать» бан IP от РКН.
Для установки Cloudflare необходима учетная запись, после оформления необходимо получить адреса серверов. Их нужно, скопировав, вставить в строки DNS-настроек домена ресурса. Сутки спустя весь поток посетителей будет проходить отбор через эту программу.