Парсинг WebArchive - Модули

Поиск дроп-доменов

WebBear

Парсинг WebArchive - Модули

Загружается список ключевых запросов
Происходит парсинг поисковой выдачи ВебАрхива
Фиксируются домены в базу
Выявляются дропы

Если сайт находился на сабдомене, то в базу пишется основной домен, но, также фиксируется что это был саб и записывается его адрес. Пригодится в целях восстановления сайта из архива. Также, саб может не работать (и не будет), а домен занят. Лишняя трата времени. И второй сценарий: у домена 1000 гео-сабов, это 1000 проверок. Нет смысла в таком виде брать домены, есть смысл их обрезать до домена.

Так же снимаются следующие параметры:

Года присутствия в архиве
Количество снимков
Текст из сниппета поисковой выдачи архива

Оптимально добавлять до 2 тысяч ключей. Обычно, достаточно 500.

Логика работы с прокси

Можно выставить до 20 потоков. Первый всегда идет прямой, т.е. без использования прокси. Остальные с проксями.
Если ответ не 200, то на следующей итерации ключ парсится повторно
Прокси выбираются по давности использования. Например, вы добавили в базу 100 проксей и 20 потоков стоит. Берутся первые 20 проксей, отрабатываются, им ставится пометка когда были использованы. Следующий цикл берет более старые. Это сделано для минимизации блокировок со стороны архива.
Если данные не пришли, в базе у прокси помечается ошибка. Каждая ошибка увеличивает общее число ошибок на ней. Когда достигнет 5, эта конкретная прокси будет помечена мертвой и ее использование прекратится.

Вход в панель

WebBear

Парсинг WebArchive - Модули

Логика работы с прокси

SEOarsenal

Написать в TG:

Канал TG: