Парсинг от А до Я

четверг, 27 августа 2009 г.

DOM vs. RegExp on PHP

Последние 2 недели было несколько заказов на написание парсеров на PHP. И я за них бралась, в основном за чисто символическую плату, чтобы повариться в PHP-шной кухне, попробовать разные способы парсинга и, заодним, подучиться не на чистом энтузиазме. ;)

Хочу рассказать о своих впечатлениях.

Парсер на PHP — это удобно и менее време- и ресурсозатратно для разработчика. Естественно, если скрипт предназначен только для скачивания какой-либо базы и последующей проверки обновлений. Ни тебе особых интерфейсов, ни тебе всяких ненужных классов: скачиваешь страницу, парсишь, в базу, по кругу. Для многофункционального ПО по-прежнему использую Delphi.

Скрипты удобны для удаленного запуска по расписанию (не забудьте установить set_time_limit(), чтобы скрипт не останавливался, не доработав до конца).

Когда-то я спрашивала читателей блога, чем удобнее парсить, регулярками или через библиотеку DOM. Тогда прозвучал только один конкретный ответ. Что ж, зато у меня был повод самостоятельно потестировать разные инструменты. Что могу сказать по поводу того, каким способом удобнее парсить html? Чаще всего я все-таки использовала регулярные выражения, потому что привыкла, наверное. Пару раз использовала комбинированный метод: сначала большой табличный кусок "добывала" регуляркой, а потом уже эти хорошо структурированные данные разбирала через DOM.

Чем неудобна библиотека DOM? Тем, что она все-таки не очень хорошо разбирает данные, если они невалидны. Если у вас включено отображение ошибок (php_value display_errors 1), вы можете легко убедиться в этом, взяв произвольный ресурс и попробовав загрузить его страницу в dom-объект

$dom->loadHTML($html);

Выдается список ошибок: то неизвестный тэг, то точка с запятой лишняя, то еще какая-нибудь фигня.

Так что мой выбор все-таки в пользу регулярок, а dom я оставляю для парсинга XML.

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

вторник, 25 августа 2009 г.

С прошедшим днем рождения, блог! :)

Оказывается, этому блогу уже год! Поздравляю себя от имени себя, что у меня хватило мужества его не забросить :) Первая запись была опубликована здесь 20 августа 2008 года. Думаю, что он проживет еще не один год. Задумок для публикации очень много, даже уже есть несколько заготовок, нуждающихся лишь в небольшом причесывании. Но сегодня новой публикации не будет — очень много работы навалилось.

Хочу еще выразить благодарность людям, присылающим мне свои списки RSS-агрегаторов. Как только разгребу дела — обязательно выложу новый конфиг.

И благодарю за информационную поддержку автора блога OnLife.me, который, кстати, собирает на своем блоге список блогов (сорри за масло масляное) для обмена постовыми. А так же авторов блогов news-i.net и Grand Блог. Спасибо-спасибо!

Еще немного запоздалое "спасибо" Владу. Начинающим "делфёрам-парсингёрам" обязательно читать его блог "Delphi в Internet"! :)

Если кто-нибудь еще ставил ссылки на RSSAdder — отметьтесь, пожалуйста, с меня ссылка ;) А то в блоггере нет надежного инструмента для мониторинга обраток.

Для меня этот опыт выкладывания в паблик небольшой бесплатной утилитки оказался очень полезным. Сделала для себя определенные выводы и все такое :)
___

На сегодня это все. Возвращаюсь к работе :)

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

четверг, 20 августа 2009 г.

Еще обновление списка RSS-каталогов

В конфиг добавлено еще 10 каталогов.

21 http://search.yahoo.com/mrss/submit
22 http://content.mail.ru/cgi-bin/list.cgi?action=rss_add
23 http://www.kanban.ru/add.asp
24 http://www.asteria.com.ua/kms_blog+add.html
25 http://www.arkadia-ko.com/kms_blog+add.html
26 http://www.seo-box.com/kms_blog+add.html
27 http://www.sevrealty.com/kms_blog+add.html
28 http://blogrider.ru/catalog/blogs/add
29 http://rss-farm.ru/catalog.aspx
30 http://elite-consult.com/index.php?nma=blog&fla=add

Спасибо Андрею за "информационную поддежку" и за предоставленный список. :) Я его (список) еще не просмотрела до конца, выловила пока только 10 ресурсов (некоторые из ресурсов уже не работали, да и дубли попадались... да и немного утомляет, если честно :)) ).

Решила не постить сюда обновление в текстовом виде, а просто выложить свежий конфиг (5 Кб), в котором все 30 ресурсов (когда скачаете, информацию о своей RSS возьмите из вашего INI-файла, а то там моя по умолчанию).
___

А сама я, тем временем, неторопливо готовлю статьи для новичков про cURL и парсинг на PHP (с примерами и все такое) :)
___

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

среда, 19 августа 2009 г.

Расширение списка RSS-агрегаторов

Выкладываю конфиги еще для 10 агрегаторов. Как вам их добавить? Просто открываете файл RSSAdder.ini любым текстовым редактором и дописываете их в конец файла (если вы самостоятельно ничего не добавляли к тем десяти агрегаторам, которые там были, — нумерация не нарушится).

вторник, 18 августа 2009 г.

Упс.

В RSSAdder-е был глюк, пропустила при тестировании :( Но он обнаружился и был исправлен. Извините, если уже скачали, — я нечаянно. :) Выложила новый вариант (там в INI добавила еще 2 RSS-каталога, сейчас их стало 10). В предыдущем посте ссылку тоже исправила.

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

понедельник, 17 августа 2009 г.

RSSAdder — добавление RSS в список RSS-агрегаторов

Хочу выложить свою простенькую программку, которая поможет вам упростить регистрацию RSS-ленты вашего блога в RSS-агрегаторах. Я когда-то уже писала о ней. А недавно извлекла из архивов, немного переработала и добавила несколько полезных функций.

Интерфейс программы сейчас выглядит следующим образом:

Все настройки хранятся в INI-файле: это и информация об RSS (если вы ее сохраните), и список RSS-агрегаторов. Список агрегаторов хранится в следующем виде:

[SITExx]
url=
field_url=
field_rss_url=
field_rss_name=
field_dsc=
field_keys=
field_email=
key_delimiter=

[SITExx] - RSS-агрегатор, где xx - номер по порядку
url - ссылка на страницу добавления RSS-ленты
field_url - поле "URL сайта"
field_rss_url - поле "URL RSS"
field_rss_name - поле "Название RSS/сайта"
field_dsc - поле "Описание сайта"
field_keys - поле "Ключевые слова"
field_email - поле "Email"
key_delimiter - разделитель ключевых слов

В качестве значений для полей формы можно указывать name поля или его id. Программа автоматически воспримет и то, и другое.

Сначала введите в шапке формы данные о своей RSS-ленте и о блоге.

Чтобы добавить RSS в каталог из списка, расположенного в левой части формы, надо дважды кликнуть на нужном элементе списка. В WebBrowser загрузится форма, в которой будут заполнены поля в соответствии с данными в шапке и данными о названиях/id полей в ini. Вам остается только довводить недостающие параметры (рубрики, капчу и т.д.) и нажать сабмит. Если регистрация в каталоге состоит из нескольких шагов, то после заполнения всех полей вам придется самостоятельно перейти к следующему шагу. Если на следующем шаге от вас требуется заполнение полей, предусмотренных в настройках, то вы можете просто нажать форму "Заполнить форму".

Еще из нововведений:
- рядом с каждым полем сделала кнопочку "Копировать в буфер", на всякий случай :)
- если вы редактируете список агрегаторов в INI-файле, то после его сохранения можно обновить данные в списке не закрывая программу, а просто нажав на "Обновить список из INI"
- добавила закладку HTML Form Viewer для удобства исследования новых RSS-каталогов. Если вы нашли новый каталог, то введите URL для добавления ресурса в строку в верхней части формы, нажмите "Загрузить". После этого загрузится форма, а внутри каждого инпута типа "text" и "textarea" будут подписаны их name и id.

Вам останется только впечатать эти названия в форму в нижней части и нажать "Сформировать код". И в memo появится запись, для добавления в INI-файл, составленная по шаблону. Не забудьте изменить "xx" в строке "[SITExx]" на номер по порядку в соответствии с ранее добавленными записями, а потом дописать полученный результат в свой INI-файл.

У меня к вам есть просьба. Я включила в INI-файл 51 RSS-агрегатор — это мой посильный вклад в формирование списка. Сейчас — ваша очередь. присылайте настройки для новых каталогов на емейл momkarla@gmail.com или оставляйте в комментах. Я буду собирать и выкладывать обновленный список у себя на блоге.

Скачать RSSAdder (1.1 Mb) (в комплектации — 51 RSS-агрегатор).
Редакция от 24.08.2010: Скачать последнюю версию INI-файла (82 агрегатора). На случай, если кто-то скачивал более раннюю версию программы и нужен только "свеженький" конфиг. После скачивания замените INI-файл в папке с программой, оставив свои данные о блоге.

У кого проблемы с Яндексом :) — качайте RSSAdder с зеркала.

Еще было бы очень здорово, если бы вы проанонсировали этот пост у себя на блогах. Ведь чем больше пользователей воспользуются программой — тем больше агрегаторов может появиться в списке :) Кто поставит ссылку — отписывайтесь в комментах, с меня ответная благодарственная ссылка :)
___

P.S.: У кого есть аккаунт на Sloger.net — проголосуйте, пожалуйста, за новость.
___

Отдельное спасибо за размещение ссылки на этот пост:
автору блога "Заметки молодого блоггера"
___

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

понедельник, 10 августа 2009 г.

Парсинг HTML на PHP

Потихоньку изучаю возможности PHP для создания парсеров. Я уже писала о том, как парсить xml на php с помощью SimpleXML. Сейчас расскажу об одном из способов парсинга html (он подойдет и для xml тоже, кстати). Повторю, что в php я не гуру, поэтому буду очень признательна, если вы оставите свои комментарии к поднятой теме.

Побродив по нашим и англоязычным форумам, поняла, что спор о том, лучше ли парсить html регулярными выражениями или использовать для этих целей возможности PHP DOM, является холиваром. Сама же я пришла к выводу, что все зависит от сложности структуры данных. Ведь если структура достаточно сложная, то с помощью регулярок приходится парсить в несколько этапов: сначала выделить большой кусок, потом разделить его на более маленькие и т.д.. В итоге, если данные сложные (или их очень много), то процесс парсинга может значительно затянуться. Ресурсоемкость в этом случае еще будет зависеть, конечно же, от самих регулярных выражений. Если в регэкспах много ".*" (они являются самыми ресурсоемкими, т.к. "прочесывают" исходный код с максимальной жадностью), то замедление будет заметным.

И вот как раз в этом-то случае как нельзя кстати приходится PHP DOM. Это удобный инструмент для парсинга как XML, так и HTML. Некоторые придерживаются мнения, что парсить html регэкспами вообще нельзя, и яростно защищают PHP DOM.

В свою очередь я ознакомилась с этим расширением, написав простенький скрипт. Который и привожу здесь, чтобы наглядно показать, как это все легко и просто. В примере разбирается html с частью карты сайта этого блога. Он присвоен переменной прямо внутри кода. В "боевых" же условиях исходные данные следует получать, например, через file_get_contents().


<?php
$html = '
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<head>
<title>Parsing-and-i.blogspot.com Map</title>
</head>
<body>
<h2>Последние темы блога</h2>
<!-- на 09.08.2009 -->
<table border="0">
   <tbody>
      <tr>
         <td><a href="http://parsing-and-i.blogspot.com/2009/08/blog-post_06.html" title="Базы">http://parsing-and-i.blogspot.com/2009/08/blog-post_06.html</a></td>
         <td>Базы</td>
      </tr>

      <tr>
         <td><a href="http://parsing-and-i.blogspot.com/2009/08/mysql-delphi-express.html" title="MySQL и Delphi. Express-метод">http://parsing-and-i.blogspot.com/2009/08/mysql-delphi-express.html</a></td>
         <td>MySQL и Delphi. Express-метод</td>
      </tr>

      <tr>
         <td><a href="http://parsing-and-i.blogspot.com/2009/08/blog-post.html" title="Пост о том, что лучше сто раз проверить">http://parsing-and-i.blogspot.com/2009/08/blog-post.html</a></td>
         <td>Пост о том, что лучше сто раз проверить</td>
      </tr>

   </tbody>
</table>

</body>
</html>
';
    /** создаем новый dom-объект **/
    $dom = new domDocument;

    /** загружаем html в объект **/
    $dom->loadHTML($html);
    $dom->preserveWhiteSpace = false;

    /** элемент по тэгу **/
    $tables = $dom->getElementsByTagName('table');

    /** получаем все строки таблицы **/
    $rows = $tables->item(0)->getElementsByTagName('tr');

    /** цикл по строкам **/
    foreach ($rows as $row)
    {
        /** все ячейки по тэгу **/
        $cols = $row->getElementsByTagName('td');
        /** выводим значения **/
        echo $cols->item(0)->nodeValue.'<br>';
        echo $cols->item(1)->nodeValue.'<br>';
        echo '<hr>';
    }
?>

В результате после запуска скрипта получаем такую картину:

Upd: Без всякого сомнения, для более удобной работы со структурой HTML в PHP вам надо познакомиться с библиотекой PHP Simple HTML DOM Parser. Я бы отдала предпочтение именно ей.

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

четверг, 6 августа 2009 г.

Базы

В эту запись буду время от времени добавлять различные базки, которые я напарсила из интернета на добровольных началах.

База №1
База предприятий с hh.ru (название, описание, сайт, ссылка на профайл на хэдхантере). Формат — MySQL. Сразу напоминаю, база неполная. Сначала запустила парсер глобально, на все регионы, но выкачать всю не удалось — запустила только на Москву. В базе в поле REGION: 0 - предприятия, скачанные по запросу "Все" (в том числе частично и Москва), 1 — стопроцентная Москва (без дублей). Всего 35217 записей. companies.zip Размер: 13,3 Мб.

___

Предлагаю авторам тематических блогов обменяться постовыми. У моего блога ТИЦ20, PR3, DMOZ. Подписчиков на сегодня приблизительно 130. Рассмотрю все предложения с блогов с примерно такими же параметрами.
___

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

вторник, 4 августа 2009 г.

MySQL и Delphi. Express-метод

Парсинг информации о предприятиях закончился. Производился он достаточно долго, так как я никуда не торопилась и поставила двухсекундную задержку между загрузками страниц. Собранную информацию я записала в базу Firebird. И решила по-быстрому перекинуть ее в MySQL, чтобы выложить, как обещала.

В Delphi на работе у меня не установлено ничего для работы с MySQL. Решила попробовать настроить доступ к данным MySQL через ODBC. Получилось довольно быстро и нехлопотно, поэтому решила написать инструкцию и выложить в блоге — вдруг кому пригодится.

1. Скачиваем драйвер ODBC с официального сайта MySQL. На данный момент ссылка на страницу продукта такая: http://dev.mysql.com/downloads/connector/odbc/5.1.html. Пришлось там у них зарегистрироваться, чтобы получить возможность скачать, что надо. Но это дело двух минут — не страшно.

2. Параллельно я создала в MySQL базу, с которой планировала работать (полей там больше, с расчетом на дальнейшую работу)

3. Устанавливаем драйвер

4. Идем в Настройки / Панель управления / Администрирование / Источники данных (ODBC) / Системный DSN / Добавить

Настраиваем там подключение.

Нажимаем на "Test" и Убеждаемся, что соединение проходит.

5. В Delphi.
5.1. Кинуть на форму ADOConnection. Двойной клик на нем, настроить все, что надо. На первой закладке ("Поставщик данных") выбрать "Microsoft OLE DB Provider for ODBC Drivers". На второй закладке у меня получилось следующее (я подключалась к локалхосту :) ):

Опять же, после настройки можно проверить подключение и убедиться, что все работает.
5.2. А дальше все элементарно, просто работать с базой через ADO. Например, поместить на форму ADOTable, назначив ей в свойстве Connection созданный ранее ADOConnection. И так далее.

База, состоящая из 35217 записей (в основном Москва, REGION=1), получилась 35 метров, в архиве 14. Это из-за того, что описания фирм там пространные, типа "мы, такие-то такие-то, ведущий производитель на мировом рынке"... Многовато по размеру, да. Но придумаю, куда выложить, и выложу.

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

понедельник, 3 августа 2009 г.

Пост о том, что лучше сто раз проверить

Подумала я давеча: "Раз уж парсер компаний с хедхантера написан, то почему бы его не запустить?" Взяла и запустила. Проработал он меньше суток, остановился. "Ну, - думаю, - чудненько! Так быстро отпахал!". Но когда посмотрела результаты, записанные в базу, — поняла, что что-то не то, так как данных было гораздо меньше, чем официально "обещали" на сайте. Залезла на хедхантер, полистала страницы вручную. Сначала все шло благополучно и ничто не предвещало беды. Но когда полезла вглубь, то заметила, что списки предприятий не отображаются. Например,

http://hh.ru/employersList.do?&areaId=113&companyWithoutVacancy=on&page=100

На последних страницах списки компаний опять нормально отображаются, как ни в чем не бывало (чтобы убедиться, достаточно поставить page=777). Соответственно, нужно внести корректировки и в алгоритм. Например, просматривать не весь список, а список по отдельным буквам алфавита или по регионам. Но я уже потеряла интерес к этому занятию и переписывать не буду. Единственно, что запустила парсер на компании Москвы, пусть парсит (добавляю в базу, в которой уже было 9 с лишним тысяч предприятий, спарсенных из "общего" списка). Парсинг закончится — выложу базу :)

Что касается таких ситуаций. Если честно, у меня уже второй раз так: начинаю парсить, а потом оказывается, что не учтены некоторые обстоятельства. Первый раз это было из-за того, что заказчик сам неточно составил задание и не учел один тип вывода данных, а я не перепроверила (база была большая, я посмотрела наугад страниц 20 - все удовлетворяли шаблону, а потом выяснилось, что есть группа исключений). Я к тому, что это не страшно, конечно, но на предварительном этапе лучше всегда проводить более тщательные исследования. И всегда быть готовым к "неожиданностям".

Удачных разработок!
___

А еще — попробую добавить свой блог в рейтинг блогов. :)
___

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

Парсинг от А до Я

Поиск по блогу

четверг, 27 августа 2009 г.

DOM vs. RegExp on PHP

вторник, 25 августа 2009 г.

С прошедшим днем рождения, блог! :)

четверг, 20 августа 2009 г.

Еще обновление списка RSS-каталогов

среда, 19 августа 2009 г.

Расширение списка RSS-агрегаторов

вторник, 18 августа 2009 г.

Упс.

понедельник, 17 августа 2009 г.

RSSAdder — добавление RSS в список RSS-агрегаторов

понедельник, 10 августа 2009 г.

Парсинг HTML на PHP

четверг, 6 августа 2009 г.

Базы

вторник, 4 августа 2009 г.

MySQL и Delphi. Express-метод

понедельник, 3 августа 2009 г.

Пост о том, что лучше сто раз проверить

Поделиться

Архив блога

Постоянные читатели

Некоторые метки

Нетематические друзья

Поиск по блогу

четверг, 27 августа 2009 г.

вторник, 25 августа 2009 г.

четверг, 20 августа 2009 г.

среда, 19 августа 2009 г.

вторник, 18 августа 2009 г.

понедельник, 17 августа 2009 г.

понедельник, 10 августа 2009 г.

четверг, 6 августа 2009 г.

вторник, 4 августа 2009 г.

понедельник, 3 августа 2009 г.

Поделиться

Архив блога

Постоянные читатели

Некоторые метки

Нетематические друзья

четверг, 27 августа 2009 г.

вторник, 25 августа 2009 г.

четверг, 20 августа 2009 г.

среда, 19 августа 2009 г.

вторник, 18 августа 2009 г.

понедельник, 17 августа 2009 г.

понедельник, 10 августа 2009 г.

четверг, 6 августа 2009 г.

вторник, 4 августа 2009 г.

понедельник, 3 августа 2009 г.