Если у вас возникли предложения по внесению изменений в руководство, свяжитесь с нами по контактам:

Быстрая инструкция по запуску

Очень важно понимать что Wordpresed, это не полноценная система, а плагин для CMS Wordpress. Его задачей является только наполнение блога на Wordpress, все остальное: смена шаблона блога, редактирование уже созданных WPSED постов, редактирование категорий, можно и нужно делать как в стандартном Wordpress блоге, пользуясь меню слева.

Первый шаг - Установка

Внимание! Обязательно воспользуйтесь утилитой checker.php, входящей в состав архива с плагином, для того, чтобы проверить соответствие настроек хостинга, требованиям плагина!

Утилита располагается в корне архива и не может быть отдельно использована, без залитого в нужную папку плагина.

Первое что вам нужно сделать - установить CMS Wordpress. Установка Wordpress описана на сотнях блогов в виде текста и видео, не вижу смысла останавливаться на этом. (Google → Установка CMS Wordpress и Установка плагина на Wordpress)

Второй шаг - CRON (как работает автоматический парсинг?)

После установки CMS и активации WPSED, переходим на главную страницу плагина.

У многих возникает вопрос "Как заставить WPSED работать на автомате, автоматически парсить и публиковать?"

Ответ: у WPSED есть ссылка (мы привыкли называть ее "CRON ссылкой"), при переходе по которой запускается эта самая "автоматическая жизнь": парсятся и публикуются посты. Точнее публикуются они стандартной логикой CMS Wordpress, плагин лишь парсит, создает пост и присваивает ему дату, когда он должен быть опубликован или же ставит флаг, что публиковать нужно немедленно. Все остальное делает сама CMS Wordpress.

Именно потому, что этот момент является не явным и не очевидным для многих новичков, мы перенесли "CRON ссылку" на главную страницу плагина и сделали статистику по ее запуску.

"Когда ссылка запускалась последний раз?" - это самый важный момент, потому что от этого зависит наполнение блога контентом, жизнь авто-блога. Красный статус поможет пользователю сходу определить что есть какая-то проблема и скажет что парсинг не идет.

Теперь переходим к запуску "CRON ссылки". "CRON ссылка" это обычная ссылка, по которой может перейти любой желающий (человек, бот), просто при переходе по ней, запускается внутренний механизм работы WPSED (парсинг, генерация поста), именно поэтому, данная ссылка защищена от случайного запуска кем-то посторонним, при помощи секретного ключа, так называемого "TOKEN".

Запускать эту ссылку можно хоть вручную, вставляя в адресную строку браузера и нажимая Enter, но тогда это не будет автоматизацией.

У каждого веб-сервера есть демон-планировщик - CRON (см. Wikipedia), его задачей является выполнение указанных действий в указанные временные промежутки. Наша задача состоит в том, чтобы использовать его, для запуска нашей CRON ссылки, с нужной нам периодичностью. Мы советуем выполнять этот переход по ссылке при помощи CURL (см. Wikipedia).

Мы умышленно не даем готовую инструкцию по запуску, потому что у разных веб-серверов могут быть какие-то свои нюансы в настройке.

Поэтому вам следует обратиться за помощью, в создании такого задания, к службе поддержки своего сервера!

Если вы не знаете как задать свой вопрос, просто скиньте им ссылку на этот пункт нашего мануала и они все поймут.

Для примера, ссылка на топик с решением проблемы запуска CRON ссылки, там же приводится пример команды запускающей ссылку. Проблема пользователя была связана с тем, что он запускал ссылку, не обрамляя ее в кавычки.

Как часто запускать CRON ссылку в рамках CRON заданий? Нужно исходить из того, насколько часто вам нужно получать результаты, которые появляются после запуска этой ссылки (спаршенные и сформированные посты).

Стоит так же учитывать, что чем чаще и масштабней идет парсинг, тем больше вероятности:

- попасть под бан сервисов, которые вы парсите
- получить ситуацию, при которой ваш собственный сервер сам оборвет выполнение скриптов по какой-либо причине, например потому что разрешенное время запуска php скрипта закончилось (Что такое max_execution_time в php.ini?)
- или php, во время выполнения задач, которые поставил перед ним WPSED, превысило допустимый лимит выделенной под него памяти (Что такое memory_limit в php.ini).

Например, если у вас выставлено в настройке "Создать постов за один сеанс парсинга - 10 штук", очевидно, что для этого действия, серверу потребуется определенное время и чем больше задач у WPSED (количество постов, которые необходимо спарсить и сформировать, количество фильтров, которыми нужно обрабатывать спаршенный текст), тем больше времени и памяти на их выполнение может понадобиться PHP и вашему веб-серверу.

В этом случае может понадобиться увеличение некоторых настроек в php.ini и, возможно, my.cnf, таких как: max_execution_time, memory_limit и прочих.

Недостаточность настроек, слабый VPS (а некоторые умудряются запускать блоги на Shared hosting'ах, чего мы крайне не рекомендуем) зачастую являются причиной проблем с парсингом. Искать признаки таких проблем стоит в error.log ваших доменов и системных логах. (см. Настройка веб-сервера)

Также не стоит забывать что каждый пост это минимум 1 запрос к поисковой системе, если в настройках парсеров была выбрана лишь одна ПС, то все 10 запросов будут сделаны только к ней и она может заблокировать ip с которого они были сделаны (Как этого избежать? см. Настройки → Настройки Curl (UserAgent, Proxy&Interfaces))

Вместе с этим, не указывайте сразу все парсеры, отработка большого количества парсеров занимает много времени. Выбирайте оптимальные под вашу тематику и ключевые слова.

И очевидно, что стоит увеличивать количество спаршиваемых, за раз, постов в соразмерности с тем, потянет ли вообще ваш сервер и его настройки такие задачи и реально ли будет успеть спарсить, скажем, 50 постов за раз до следующего запуска CRON ссылки?

Поэтому ответ один: делайте все с умом, настолько часто, насколько вам это кажется разумным и экспериментальным путем попытайтесь выяснить, какие объемы готов переварить ваш сервер с текущими настройками, а потом уже наращивайте или снижайте объемы.

Описание работы логики "CRON ссылки" хоть и было добавлено вторым пунктом, но лишь для того, чтобы пользователь сразу усвоил этот момент. Добавление Cron ссылки в задания вашего сервера можно произвести и в самом конце, после того как вы настроите WPSED как вам это нужно.

Третий шаг - Добавляем категории и шаблоны вывода постов

Переходим к следующему важному этапу - нам необходимо добавить категории, в которых будут размещаться наши будущие посты, спаршенные по ключевым словам и задать для каждой категории шаблон (Pattern), согласно которому эти посты будут создаваться (подробнее про шаблоны см. Шаблон новости).

Как мы уже выше писали, WPSED это всего-лишь плагин, поэтому многие вещи можно делать используя стандартные функции CMS Wordpress. Например создавать категории можно перейдя в соответствующий раздел CMS Wordpress → Записи → Рубрики.

Там присутствует абсолютно тот же функционал, но, визуально, удобней это будет делать из раздела меню WPSED → "Категории". Рассмотрим поближе добавление категории на примере:

Также вы сможете создать категорию другим способом - вам будет предложено ее создать при добавлении новых ключевых слов, но об этом в следующем шаге.

То есть на этом этапе вы должны понять, что посты, добавленные к той или иной Категории будут выглядеть так, как вы это зададите в Шаблонах вывода поста к этой категории. Например пост по кею1, будет выглядеть по разному в категории1 и категории2, если в этих категориях используются разные Шаблоны поста.

Пример того, как можно составить 2 шаблона для постов категории

[sentence =n] / [keyword]
<span class="sharable" style="text-align=center;">[image count=1]</span>
<span>[paragraph sentences=8 withkey=1]</span>

[more] /*Тег разделяющий короткую и полную новости*/

<span class="sharable">[image count=1]</span>
[paragraph sentences=11 withkey=0]
<span class="video">[video count=1]</span>
<span class="text">[sentence =n]</span>
<span class="chino">[image count=1]</span>
<span>[sentence =r]</span>

[nextpattern] /*Тег разделяющий шаблоны постов категории*/

<h1>[keyword]</h1>
<span style="text-align=center;">[image count=1]</span>

[more] /*Тег разделяющий короткую и полную новости*/

<span class="chino">[image count=1]</span>
<span class="texito">[paragraph sentences=8 withkey=1]</span>
<span class="chino">[image count=1]</span>
<span class="texito">[paragraph sentences=10 withkey=1]</span>

Ознакомиться с полным списком макросов WPSED вы можете в соответствующем разделе руководства (см. Таблица макросов WordpreSED v2).

Четвертый шаг - Назначаем категориям парсеры

В наборе присутствует видео парсер YouTube API, для его работоспособности необходим API ключ. Как его получить рассказано в описании данной опции.

Перед тем, как выбирать и назначать парсеры, прочтите пожалуйста этот текст, в нем рассказывается подробно, как происходит парсинг и почему не нужно выбирать сразу все парсеры и выставлять большие цифры в настройке "парсить N постов за один сеанс парсинга":

Если у Вас задано, например "парсить от 8 до 10 постов за один сеанс парсинга", то следующие действия будут воспроизведены в цикле от 8 до 10 раз.

1. Берется случайный кейворд (или случайный из уже спаршенных, если это выставлено в настройках)
2. Выгребается шаблон поста, который прикреплен к категории этого кейворда
3. Шаблон разделяется, если нужно, и выбирается случайная часть
4. Проверяется использование текстовых макросов а также макросов картинок и видео
5. Соответственно, если в шаблоне не встречается ни один макрос видео - видео-парсеры не будут задействованы (аналогично и с текстом и картинками)
6. Берутся парсера, которые прикреплены к категории кейворда и отбрасываются те, которые определены как незадействуемые в предыдущем пункте
7. Парсится контент по ВСЕМ оставшимся задействуемым парсерам (текстовый контент выгребается по спец-алгоритму из сайтов, ссылки на которые выдает ПС)
8. Если контент текстовый - он прогоняется через фильтры и стеммер
9. Выполняется проход по всем макросам шаблона и на их место подставляется соответствующая часть контента без повторов

Как видим - если мы задали в шаблоне по одному макросу текста, картинок и видео, но в то же время назначили категории ВСЕ парсера, то ради незначительного объема контента система будет запускать ВСЕ парсера 8 или 10 раз - что чревато вылетами.

Поэтому, пожалуйста, следите за соотношением количества макросов к количеству парсеров. Не выбирайте все парсеры.

Следующим, не менее важным этапом, является этап назначения парсеров для каждой из созданных категорий. Очень часто мы сталкивались с вопросами в саппорт - "Помогите, все сделал правильно, но у меня ничего не парсится! Что делать?".

Когда система выбирает ключевое слово для парсинга, она смотрит не только на то, какие шаблоны постов есть для вывода спаршенного контента, в первую очередь система смотрит какие ей парсеры использовать. На этом шаге мы присваиваем парсеры для категорий.

Ключи, которые находятся в категории, которая не имеет присвоенных парсеров, для удобства пользователя, отмечены красным статусом

Пятый шаг - Добавляем ключевые слова

После того, как мы добавили категории, создали для них шаблоны вывода постов, мы можем приступить к добавлению ключевых слов. Сделать это можно в разделе Кейворды.

После нажатия кнопки добавить мы увидим форму добавления новых ключевых слов. Мы можем добавить их либо в уже существующую категорию, созданную нами на шаге Создания категории, либо создать новую и добавить в нее.

После того, как мы добавили ключевые слова, они появятся в таблице

Шестой шаг - Настраиваем дополнительные параметры

После того, как мы разобрались с установкой, с тем, что такое CRON, добавили категории и шаблоны вывода постов, выбрали парсеры для наших категорий и добавили ключевые слова, нам необходимо настроить различные важные параметры, от которых многое будет зависеть.

Переходим в раздел Опции.

Этот пункт, как и все предыдущие очень важен, для нормального функционирования WPSED.

На этом шаге вы задаете множество важных настроек: даете указания WPSED через что ему парсить (Interfaces, proxy/socks), сколько ему парсить, репарсить, генерировать ли комментарии к записям и если "да", то по каким правилам и в каких количествах, сохранять картинки при парсинге или нет, как фильтровать текстовый контент, который будет парсится, какие фильтры использовать и многое другое.

Описание всех настроек можно найти в соответствующем разделе руководства.

Обязательно делайте бекап настроек!

Для вашего удобства, чтобы из раза в раз вам не приходилось проделывать большинство шагов, был создан модуль, который помогает сохранять текущие настройки Опций, Категорий и назначенных им парсеров, а также Ключевые слова.

Этот модуль позволяет как сохранять настройки так и загружать их в WPSED, установленный на любом другом сайте.

Внимание! Обязательно помните, что при бекапе настроек, сохраняются абсолютно все настройки, включая добавленные в опциях Интерфейсы!

Может произойти следующая ситуация: на сервере А добавлены 10 дополнительных IP, которые вы используете в качестве интерфейсов при парсинге. Затем вы решили быстро поднять дорвей на совершенно другом сервере - сервер Б, загрузили туда настройки сервера А и не понимаете, почему не идет парсинг?

Ответ: парсинг не идет, потому что интерфейсы сервера А никак не могут быть использованы на сервере Б - это совершенно другое оборудование!

Попасть в этот модуль можно из меню WPSED, перейдя по ссылке Экспорт/Импорт, в меню плагина.

Особо отмечаем, что бекап не заменяет зеленой кнопки сохранения настроек, всегда нажимайте Сохранить настройки, чтобы применить их!

Также, для вашего удобства мы добавили кнопку бекапа на странице опций.

Что происходит после запуска CRON ссылки?

Что происходит после запуска CRON ссылки:

Запускается CRON ссылка → выбирается одно или несколько ключевых слов, в зависимости от настроек (см. Опции → Настройки создаваемых записей) → выбирается один из заданных шаблонов поста для этой категории.

В шаблоне этого поста, в числе прочих, использовано 10 макросов [paragraph sentences=1 withkey=0]. Макрос предполагает вывод 1 параграфа без ключевого слова внутри, запускается CRON ссылка:

  1. плагин во время парсинга видит, что в шаблоне поста используются текстовые макросы
  2. подключит текстовые парсеры
  3. спарсит ими текст по кею
  4. весь этот пул текста пропустит через фильтры
  5. потом через стеммер
  6. в стеммере получится список предложений как с кеем так и без кея
  7. и, уже во время формирования контента, из стеммера будут дергаться предложения и из них будут строиться параграфы.
Печать/экспорт
QR Code
QR Code Быстрая инструкция по запуску (generated for current page)