Конфигурируемая система грабинга/парсинга сайтов.
Особенности:
- отсутствие БД (используется файловая система + xml);
- ручной / автоматический (on-line) режимы работы;
- "работа в 2 захода": грабинг и парсинг - значительно увеличивается эффективность работы;
- использование proxy и leachers сервисов;
- грабинг в режимах crawler/mask/list/feed;
- многостраничный парсинг;
- встроеный дебаггер регулярных выражений на "живом" примере;
- промежуточная коррекция результатов с использоанием как регулярных выражений, так и непосредственно php функций;
- возможность сохранения изображений и коррекция путей к ним;
- возможность экспорта.
Пример грабинга:
http://rincondelvago.com – Использован метод "crawler", грабинг с учетом субдоменной структурой сайта. Сграблено ~60K материала, — 07.2011
http://bestreferats.ru – Использован метод "list". Сграблено ~200K материала, общим объемом ~16Gb, — 07.2011
http://sexytales.ru – Использован метод "mask/list", грабинг с учетом многостраничных текстов. Сграблено ~14K материалов, объемом MySQL 0,5Gb, все тексты автоматически переведены на английский язык для использования на англоязычном клоне — 08.2011
http;//bezsna.net/ - Использован метод "crawler". Сграблено ~0.2K материала — 11.2011
http://psyportal.net/ - Использован метод "crawler". Сграблено ~0.6K материала — 01.2012
http://uznayson.ru/ - Использован метод "feed". Сграблено ~7K материала — 01.2012
http://epidemz.net/ - Используется режим on-line (постоянный мониторинг и грабинг)
http://trinixy.ru/ - Используется режим on-line (постоянный мониторинг и грабинг)
http://ziza.ru/ - Используется режим on-line (постоянный мониторинг и грабинг)
http://24gadget.ru/ - Используется режим on-line (постоянный мониторинг и грабинг)
http://crmonline.ru/ - Используется режим on-line (постоянный мониторинг и грабинг)
http://psyh.ru/ - Используется режим on-line (постоянный мониторинг и грабинг)
http://cwer.ru/ - Используется режим on-line (постоянный мониторинг и грабинг)
Скриншоты, 9 шт.