J
J
Julia Reiner2016-12-05 16:45:18
Search Engine Optimization
Julia Reiner, 2016-12-05 16:45:18

How can I avoid an IP ban when parsing a site?

Пытаюсь спарсить контент сайта заказчика на предмет ошибок в метатегах, но сервер банит по IP. Выставляла поток 1 с промежутком 1100, все равно бан по ip минут на 5-10.
Как можно спарсить контент сайта?
Использовала Comparser и Xeny.
P.S.: Прошу не давать ответов, навроде "попроси у заказчика".

Answer the question

In order to leave comments, you need to log in

5 answer(s)
I
Ilya, 2016-12-05
@SandFox0

1. Использовать прокси (желательно платные, но и с ними проблемы тоже могут быть)
2. Увеличивать таймаут между запросами.

R
Rou1997, 2016-12-05
@Rou1997

Менять IP.
Готовые же сервисы есть, их тоже?

Дмитрий Дарт, 2016-12-05
@gobananas

Вариантов много:
1) Больше таймаут. 1100 - это в секундах? Тогда нормально.
2) Прикинуться ботом гугла или яндекса, иногда им разрешают больше, но тут надо уже свой парсер писать а не готовыми пользоваться.
3) Запастись прокси и менять его после каждого запроса, тут опять же со своим парсером попроще было бы.
4) Самый верный способ: использовать парсеры имитирующие браузеры типа PhantomJS или Selenium.
5) Настроить вечером парсер на 1 запрос в 10 минут, лечь спать утром будет сразу 48 страниц )))

J
Julia Reiner, 2016-12-05
@SandFox0

Thank you! Helped to increase the timeout to 3000 and use seofrog

I
IliaBrz, 2017-06-13
@IliaBrz

You can either use a VPN or call your ISP and ask them to change your IP address.

Didn't find what you were looking for?

Ask your question

Ask a Question

731 491 924 answers to any question