Как собрать признаки для парсинга по inurl:
из рубрики Инструментарий от 18.Авг, 2010
Оператор inurl: работает в поиске Гугла и некоторых других поисковиков и предназначен для выборки страниц, в адресах которых есть вхождение подстроки, указанной в качестве операнда оператора inurl.
В основном, такой парсинг используется для нахождения гостевых книг, форумов и других мест, в которых можно оставить ссылку для набора тИЦ или вывода в топ. В продаже можно встретить готовые базы, содержащие более 10k запросов. В большинстве из них, запросы сгенерированы автоматически, без ручной проверки, например, берутся 10 признаков гостевых (inurl:"gbook.php", inurl:"gb.php"...), 10 доменных зон (site:"com", site:"org"...) и 10 каких-либо уточняющих фраз (+intext:"leave comment" -intext:"post comment"...). Добавьте еще 2 по 10 и получите 100k запросов. На многие из них, Гугл не выдаст ничего.
Собрать актуальные запросы можно с помощью обратных ссылок на сайты набравшие таким способом тИЦ или попавшие в топ Гугла. Как найти такие сайты и отпарсить с них бэки — отдельная история. Можно использовать для этих целей Yahoo Site Explorer и AGRESS Parser.
Собрав бэки с нескольких сайтов, необходимо выделить из них общие признаки. Это довольно простая задача для всех кто мало-мальски знаком с программированием на PHP или другом языке. Те, кто не знаком могут использовать Хрумер или его демо-версию, там есть необходимая функция.
После сбора признаков можно приступать к парсингу, предварительно разбавив их доменными зонами или чем-то ещё.
Оставьте комментарий