Answer the question
In order to leave comments, you need to log in
How can I avoid an IP ban when parsing a site?
Пытаюсь спарсить контент сайта заказчика на предмет ошибок в метатегах, но сервер банит по IP. Выставляла поток 1 с промежутком 1100, все равно бан по ip минут на 5-10.
Как можно спарсить контент сайта?
Использовала Comparser и Xeny.
P.S.: Прошу не давать ответов, навроде "попроси у заказчика".
Answer the question
In order to leave comments, you need to log in
1. Использовать прокси (желательно платные, но и с ними проблемы тоже могут быть)
2. Увеличивать таймаут между запросами.
Вариантов много:
1) Больше таймаут. 1100 - это в секундах? Тогда нормально.
2) Прикинуться ботом гугла или яндекса, иногда им разрешают больше, но тут надо уже свой парсер писать а не готовыми пользоваться.
3) Запастись прокси и менять его после каждого запроса, тут опять же со своим парсером попроще было бы.
4) Самый верный способ: использовать парсеры имитирующие браузеры типа PhantomJS или Selenium.
5) Настроить вечером парсер на 1 запрос в 10 минут, лечь спать утром будет сразу 48 страниц )))
Thank you! Helped to increase the timeout to 3000 and use seofrog
Didn't find what you were looking for?
Ask your questionAsk a Question
731 491 924 answers to any question