Поиск дроп-доменов

WebBear

Парсинг WebArchive - Модули

  1. Загружается список ключевых запросов
  2. Происходит парсинг поисковой выдачи ВебАрхива
  3. Фиксируются домены в базу
  4. Выявляются дропы

Если сайт находился на сабдомене, то в базу пишется основной домен, но, также фиксируется что это был саб и записывается его адрес. Пригодится в целях восстановления сайта из архива. Также, саб может не работать (и не будет), а домен занят. Лишняя трата времени. И второй сценарий: у домена 1000 гео-сабов, это 1000 проверок. Нет смысла в таком виде брать домены, есть смысл их обрезать до домена.

Так же снимаются следующие параметры:

  1. Года присутствия в архиве
  2. Количество снимков
  3. Текст из сниппета поисковой выдачи архива

Оптимально добавлять до 2 тысяч ключей. Обычно, достаточно 500. 

Логика работы с прокси

  • Можно выставить до 20 потоков. Первый всегда идет прямой, т.е. без использования прокси. Остальные с проксями.
  • Если ответ не 200, то на следующей итерации ключ парсится повторно
  • Прокси выбираются по давности использования. Например, вы добавили в базу 100 проксей и 20 потоков стоит. Берутся первые 20 проксей, отрабатываются, им ставится пометка когда были использованы. Следующий цикл берет более старые. Это сделано для минимизации блокировок со стороны архива.
  • Если данные не пришли, в базе у прокси помечается ошибка. Каждая ошибка увеличивает общее число ошибок на ней. Когда достигнет 5, эта конкретная прокси будет помечена мертвой и ее использование прекратится.