Как работает тонкая настройка страниц в Avalanche –
на примере Rosinvest. ru
Поисковый робот Avalanche может выделять на интернет-странице отдельные новости и приносить их в виде отдельно оформленных текстовых сообщений – с заголовком, датой, текстом и указанием источника.
Для этого структуру страницы надо «объяснить» роботу с помощью Шаблона обработки новостей блока «Тонкая настройка»
Рассмотрим использование блока Тонкой настройки на примере страницы «Банк новости РосИнвест» (адрес - http://www. /rubric/13/ ).
Вот как выглядит страница в Интернете. Можно заметить, что информационную основу страницы составляют однотипные блоки новостей (всего их на странице 25) :

А вот как выглядит ее настройка для робота.
Обратите внимание, в настройке Регламента установлена галочка «Собирать новости со страницы», а окне «Шаблон обработки новостей» задан некий набор команд:

Ниже приведена часть html-кода страницы «Банк новости РосИнвест» и порядок действий робота на ней:
Вот часть html-кода страницы «Банк новости РосИнвест» (http://www. /rubric/13/ ) | А вот как ее обрабатывает робот Avalanche в соответствии с Шаблоном обработки новостей в блоке Тонкой настройки |
Начало страницы пропущено... <table border="0" width="99%"> <tr> <td valign="top"> <div align="center"> <table width="99%" border="0" cellspacing="0" cellpadding="0"> <tr> <td class="classifieds-account-line2" bgcolor=><p align="justify"> <font class="pn-art"><a title="Банк "Санкт-Петербург" предлагает вклад "Новогодний Петербург" " href="/news/345700/"> Банк "Санкт-Петербург" предлагает вклад "Новогодний Петербург"</a></font><br> <font class="pn-normal">Банк "Санкт-Петербург" предлагает новый вклад "Новогодний Петербург". Минимальная сумма — 10 тыс. рублей либо 500 долларов/евро. Доходность вложения в рублях... <a title="Банк "Санкт-Петербург" предлагает вклад "Новогодний Петербург"" class="pn-normal" href="/news/345700/">Подробней »</a></font><br> <font class="pn-sub">Опубликовано: Понедельник, 05 ноября, 2007 г. - 08:00 BT</font> <tr> Продолжение страницы пропущено... | Вот шаблон этой страницы для робота: 1 <font class="pn-art"><a title="<~title~> 2 " href="<~url~> 3 <meta http-equiv="Keywords" content=" 4 <~text~> 5 /> 6 <~/url~>"> Вот робот нашел первое появление подстроки 1 из шаблона обработки новостей (отмечено красным). После этого робот отработал свою команду <~title~>, т. е. выделил заголовок новости (отмечено зеленым) Далее робот нашел следующую подстроку 2 (красная) и отработал свою команду <~url~> - т. е. выделил ссылку на новость (синяя) и ушел по ней на дочернюю страницу. Строки 3-6 из шаблона тонкой настройки (выделение текста новости) робот будет выполнять уже на странице новости, потом вернется назад на главную страницу по команде <~/url~> и начнет искать следующее появление подстроки 1 из шаблона, чтобы обработать следующую новость. В итоге, с данной страницы робот принесет 25 новостей. |
Итак, обработав две строки своего шаблона, робот выделил ссылку на страницу с первой новостью и ушел по ней на страницу http://www. /news/345700/ .
Следующие команды шаблона он будет выполнять на этой дочерней странице, пока не встретит команду вернуться назад ( <~/url~> )
Часть кода страницы первой новости | Порядок действий робота на странице |
<html xmlns:IE> <head> <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> <title>Банк "Санкт-Петербург" предлагает вклад "Новогодний Петербург" » Новости » Финансово-промышленные и торговые Новости » Новости дня на </title> <meta http-equiv="Keywords" content="Банк " Санкт-Петербург" предлагает новый вклад " Новогодний Петербург" Минимальная сумма &mdash 10 тыс рублей либо 500 долларов/евро Доходность вложения в рублях при размещении на 181 день составляет 10%, при размещении на 367 дней &mdash 11% Доходность вложения в долларах при размещении на 181 день составляет 8,5%, при размещении на 367 дней &mdash 9%% Доходность вложения в евро при размещении на 181 день составляет 8%, при размещении на 367 дней &mdash 8,5% Пополнение по вкладу возможно Проценты выплачиваются в конце срока" /> <meta name="Abstract" content="Банк " Санкт-Петербург" предлагает новый вклад " Новогодний Петербург" Минимальная сумма &mdash 10 тыс рублей либо 500 долларов/евро Доходность вложения в рублях при размещении на 181 день составляет 10%, при размещении на 367 дней &mdash 11% Продолжение пропущено... | Вот шаблон (робот сейчас на 3 строке): 1 <font class="pn-art"><a title="<~title~> 2 " href="<~url~> 3 <meta http-equiv="Keywords" content=" 4 <~text~> 5 /> 6 <~/url~>"> Вот робот нашел на странице новости вхождение подстроки 3 (красное) – и начал отрабатывать команду <~text~>, т. е. выделять текстовый блок новости (зеленый). Признак окончания текста – появление подстроки 5 (красное). Далее робот должен выполнить команду возвращения на материнскую страницу – <~/url~>, потом, уже вернувшись, найти подстроку "> . Тем самым обработка шаблона и выделение первой новости закончилось, и робот заново начинает обработку шаблона в поисках второй новости. И так далее – всего на данной странице робот в итоге найдет 25 новостей (и это правильно, их там ровно 25). |
В итоге обработка данной страницы заканчивается с такой вот статистикой:

Видно, что робот закачал 26 страниц, из них одна главная и 25 новостных,
Общий объем трафика составил 1.84 Мб, при этом для отображения элементов форматирования страниц робот счел важными 11 дополнительных файлов (в-основном, это картинки), которые также сохранил.
Результаты скачивания видны в основном окне Avalanche:

Видно, что в папке источника «Банк новости РусИнвест» появилась одна новая страница и 25 свежих новостей. Что и требовалось.
А вообще язык тонких настроек Avalanche включает следующие операторы:
<~owner~> Первичный источник
<~source~> Источник новости
<~title~> Заголовок новости
<~url~> Выделить гиперссылку на новость и перейти по ней для обработки
<~/url~>Возвратиться на материнскую страницу
<~*~> Пропустить кусок кода
<~text~> Текст новости
<~date~> Дата и время


