Как работает тонкая настройка страниц в Avalanche –

на примере Rosinvest. ru

Поисковый робот Avalanche может выделять на интернет-странице отдельные новости и приносить их в виде отдельно оформленных текстовых сообщений – с заголовком, датой, текстом и указанием источника.

Для этого структуру страницы надо «объяснить» роботу с помощью Шаблона обработки новостей блока «Тонкая настройка»

Рассмотрим использование блока Тонкой настройки на примере страницы «Банк новости РосИнвест» (адрес - http://www. /rubric/13/ ).

Вот как выглядит страница в Интернете. Можно заметить, что информационную основу страницы составляют однотипные блоки новостей (всего их на странице 25) :

А вот как выглядит ее настройка для робота.

Обратите внимание, в настройке Регламента установлена галочка «Собирать новости со страницы», а окне «Шаблон обработки новостей» задан некий набор команд:

Ниже приведена часть html-кода страницы «Банк новости РосИнвест» и порядок действий робота на ней:

Вот часть html-кода страницы

«Банк новости РосИнвест» (http://www. /rubric/13/ )

А вот как ее обрабатывает робот Avalanche в соответствии с Шаблоном обработки новостей в блоке Тонкой настройки

Начало страницы пропущено...

<table border="0" width="99%">

<tr>

<td valign="top"> <div align="center">

<table width="99%" border="0" cellspacing="0" cellpadding="0">

<tr>

<td class="classifieds-account-line2" bgcolor=><p align="justify">

<font class="pn-art"><a title="Банк "Санкт-Петербург" предлагает вклад "Новогодний Петербург"

" href="/news/345700/">

Банк "Санкт-Петербург" предлагает вклад "Новогодний Петербург"</a></font><br>

<font class="pn-normal">Банк "Санкт-Петербург" предлагает новый вклад "Новогодний Петербург". Минимальная сумма &mdash; 10 тыс. рублей либо 500 долларов/евро. Доходность вложения в рублях... <a title="Банк "Санкт-Петербург" предлагает вклад "Новогодний Петербург"" class="pn-normal" href="/news/345700/">Подробней »</a></font><br> <font class="pn-sub">Опубликовано: Понедельник, 05 ноября, 2007 г. - 08:00 BT</font>

<tr>

Продолжение страницы пропущено...

Вот шаблон этой страницы для робота:

1 <font class="pn-art"><a title="<~title~>

2 " href="<~url~>

3 <meta http-equiv="Keywords" content="

4 <~text~>

5 />

6 <~/url~>">

Вот робот нашел первое появление подстроки 1 из шаблона обработки новостей (отмечено красным).

После этого робот отработал свою команду <~title~>, т. е. выделил заголовок новости (отмечено зеленым)

Далее робот нашел следующую подстроку 2

(красная) и отработал свою команду <~url~> - т. е. выделил ссылку на новость (синяя) и ушел по ней на дочернюю страницу.

Строки 3-6 из шаблона тонкой настройки (выделение текста новости) робот будет выполнять уже на странице новости,

потом вернется назад на главную страницу по команде <~/url~>

и начнет искать следующее появление подстроки 1 из шаблона, чтобы обработать следующую новость.

В итоге, с данной страницы робот принесет 25 новостей.


Итак, обработав две строки своего шаблона, робот выделил ссылку на страницу с первой новостью и ушел по ней на страницу http://www. /news/345700/ .

НЕ нашли? Не то? Что вы ищете?

Следующие команды шаблона он будет выполнять на этой дочерней странице, пока не встретит команду вернуться назад ( <~/url~> )

Часть кода страницы первой новости

Порядок действий робота на странице

<html xmlns:IE>

<head>

<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">

<title>Банк &quot;Санкт-Петербург&quot; предлагает вклад &quot;Новогодний Петербург&quot; » Новости » Финансово-промышленные и торговые Новости » Новости дня на </title>

<meta http-equiv="Keywords" content="Банк &quot Санкт-Петербург&quot предлагает новый вклад &quot Новогодний Петербург&quot

Минимальная сумма &mdash 10 тыс рублей либо 500 долларов/евро

Доходность вложения в рублях при размещении на 181 день составляет 10%, при размещении на 367 дней &mdash 11%

Доходность вложения в долларах при размещении на 181 день составляет 8,5%, при размещении на 367 дней &mdash 9%%

Доходность вложения в евро при размещении на 181 день составляет 8%, при размещении на 367 дней &mdash 8,5%

Пополнение по вкладу возможно Проценты выплачиваются в конце срока" />

<meta name="Abstract" content="Банк &quot Санкт-Петербург&quot предлагает новый вклад &quot Новогодний Петербург&quot Минимальная сумма &mdash 10 тыс рублей либо 500 долларов/евро Доходность вложения в рублях при размещении на 181 день составляет 10%, при размещении на 367 дней &mdash 11%

Продолжение пропущено...

Вот шаблон (робот сейчас на 3 строке):

1 <font class="pn-art"><a title="<~title~>

2 " href="<~url~>

3 <meta http-equiv="Keywords" content="

4 <~text~>

5 />

6 <~/url~>">

Вот робот нашел на странице новости вхождение подстроки 3 (красное) – и начал отрабатывать команду <~text~>,

т. е. выделять текстовый блок новости (зеленый). Признак окончания текста – появление подстроки 5 (красное).

Далее робот должен выполнить команду возвращения на материнскую страницу –

<~/url~>, потом, уже вернувшись, найти подстроку "> .

Тем самым обработка шаблона и выделение первой новости закончилось, и робот заново начинает обработку шаблона в поисках второй новости. И так далее – всего на данной странице робот в итоге найдет 25 новостей (и это правильно, их там ровно 25).


В итоге обработка данной страницы заканчивается с такой вот статистикой:

Видно, что робот закачал 26 страниц, из них одна главная и 25 новостных,

Общий объем трафика составил 1.84 Мб, при этом для отображения элементов форматирования страниц робот счел важными 11 дополнительных файлов (в-основном, это картинки), которые также сохранил.

Результаты скачивания видны в основном окне Avalanche:

Видно, что в папке источника «Банк новости РусИнвест» появилась одна новая страница и 25 свежих новостей. Что и требовалось.

А вообще язык тонких настроек Avalanche включает следующие операторы:

<~owner~> Первичный источник
<~source~> Источник новости
<~title~> Заголовок новости
<~url~> Выделить гиперссылку на новость и перейти по ней для обработки

<~/url~>Возвратиться на материнскую страницу
<~*~> Пропустить кусок кода
<~text~> Текст новости
<~date~> Дата и время