Поиск по блогу

четверг, 6 ноября 2008 г.

Парсинг форумов

Немного отвлекусь от темы автоматизации постинга в дневники и поговорю о парсинге форумов. Все-таки тема дневника — это парсинг. А форумы представляют собой широченное поле для оттачивания навыков парсинга. Да и, — если честно, — скучно в нескольких постах подряд писать на одну тему, буду чередовать.

Итак, к теме.

Впервые я натолкнулась на дублированные ветки форума года 2 назад, когда разбиралась с CMS Joomla. Тогда я просто отметила для себя этот факт: типа, кто-то просто по-своему решает проблему непопулярности форума и наполняет его за счет других ресурсов, паразитируя на чужой аудитории. Но, по сути, первоначальное заполнение форума полезной информацией — это очень неплохо для привлечения на форум целевой аудитории. Единственно, что надо бы не полностью копировать, а хоть немного видоизменять записи (достаточно пропустить через примитивный синонимайзер или разбавить взятыми со стороны).

Я знаю, что существуют генераторы дорвеев в виде форумов. Но что если вам нужен не дорвей, а форум "для людей"? Установить PhpBB — это самое малое. Главное — привлечь пользователей. А на пустое место никого не привлечь.

Итак, попытаемся его самостоятельно наполнить. Я разберу наполнение форума на движке PhpBB. Так как параллельно занимаюсь еще парой направлений, то не знаю, с какой частотой буду публиковать статьи по этой теме. Но то, что они будут — это факт.

Большую часть работы можно автоматизировать, чтобы потом просто нажимать на кнопки. Как я себе представляю полуавтоматическое наполнение форума? Сначала надо зарегистрировать базу пользователей-ботов. Не просто напихать в базу всякого мусора, а сделать качественно: интересные ники, аватары, инфо... В инфе каких-нибудь пользователей, кстати, можно проставить ссылки на свои блоги (если их много).

Затем нужно создать разделы. Побродить в сети по форумам аналогичной тематики, посмотреть, подумать, оригинально сформулировать. В это же время надо начать думать над структурой приложения. Первое, что мне приходит в голову, это держать 2 базы MySQL: одну на локальной машине, а другую — в сети. И грамотно организовать взаимодействие этих баз.

Это общие моменты. На вопросах структуры и взаимодействия баз я подробнее остановлюсь позже.

На следующем этапе надо подыскать форумы, родственные по тематике. Желательно, чтобы они были на одном и том же движке (это освободит от необходимости составлять для парсинга разных движков отдельные регулярные выражения). Провести парсинг информации. Нам необходимо МНОГО информации, с большим запасом. Эту информацию записать на локальную базу, изменить сами записи, изменить время публикации (равномерно распределить на определенный период). А потом — автоматически публиковать ее в сети, опираясь на время записей, чтобы поисковики видели обновляющийся ресурс.

Наверное, немного плохо сформулировала. Но в голове я ясно представляю весь этот процесс.

Поэтапно буду освещать его здесь. Первые 3 вопроса будут:
1. Работа с MySQL в Delphi
2. Парсинг базы аватаров
3. Наполнение базы юзеров

Остальные пункты допишу потом.

Статьи схожей тематики:



2 комментария:

  1. есть разные базы: MySql, оракл, еще всякой фигни..... какой лучше пользоваться? Ну в сети я знаю, подавляющее большинство- это MySql. а если база нужна на виндовой машине, локальной?

    ОтветитьУдалить
  2. Да тут все зависит от задачи и от личных предпочтений) Для небольших локальных приложений проще использовать Фаербёд (бесплатный и довольно серьезный - там и триггеры, и сиквенсы, и хранимые процедуры). MySQL попроще и работать с ним локально я бы не советовала. Но конкретно для этой задачи — подойдет. Так как удобно локально установить форум и работать непосредственно с той базой. А удаленную базу обновлять данными из локальной в соответствии с алгоритмом).

    А оракл слишком навороченный и вообще платный — использовать его нет необходимости :)

    ОтветитьУдалить

Комментарии модерируются, вопросы не по теме удаляются, троллинг тоже.

К сожалению, у меня нет столько свободного времени, чтобы отвечать на все частные вопросы, так что, может, свой вопрос лучше задать на каком-нибудь форуме?

Поделиться