Введение

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Введение

Система представляет собой связанную совокупность процедур сканирования сети на предмет открытых ресурсов, индексирования найденных документов и поиска необходимого документа в индексе по заданным ключевым словам.

Система обеспечивает пользователям возможность доступа к ресурсам в архитектуре клиент-сервер. В качестве клиента выступает веб-приложение, доступ к которому осуществляется через броузер.

Система реализована как набор плагинов, которые позволяют добавлять или убирать определенные функции.

Система состоит из следующих подсистем:
- сканирования ресурсов сети;

- индексирования данных в доступных ресурсах;

- поиска по индексу.

Подсистемы сканирования ресурсов сети и индексирования данных в доступных ресурсах относятся к серверной части системы. Они тесно связаны и неотделимы друг от друга. Подсистема сканирования ресурсов предназначена для сканирования всех машин локальной сети, составления списка доступных ресурсов и список документов, хранящихся в этих ресурсах. Подсистема индексирования данных предназначена для сканирования документов из полученного ранее списка и индексирования данных, находящихся в этих документах. Полученный индекс хранится на сервере.

Подсистема поиска относится к клиентской части приложения и реализована в виде веб-приложения. Пользовательский интерфейс подсистемы напоминает интерфейс известных поисковых систем (google, yandex и тд). Подсистема предназначена для поиска необходимого документа или нескольких документов, удовлетворяющих заданным критериям поиска (ключевым словам).

НЕ нашли? Не то? Что вы ищете?

Перед первым запуском системы необходимо провести ее первоначальную настройку. Далее будет рассмотрена настройка отдельных подсистем.

Настройка подсистемы сканирования ресурсов сети

Для того чтобы должным образом настроить подсистему необходимо внести изменения в следующие файлы:

1. smb. properties

2. urls

Настройка smb. properties

Данный файл находится в директории /conf программы. Он представляет собой набор настроек локальной сети, по которой будет вестись поиск. Далее будут перечислены необходимые настройки с кратким описанием для каждой.

jcifs. smb. client. username – имя пользователя, который имеет доступ к локальной сети.

jcifs. smb. client. password – пароль пользователя для доступа к локальной сети.

jcifs. smb. client. domain – наименование домена подсети, в которую входит компьютер.

bios. wins – IP адрес сервера WINS. Необходимо только для доступа к компьютерам, которые находятся в различных подсетях.

bios. baddr – широковещательный адрес локальной сети. Данное значение необходимо установить, так как в некоторых конфигурациях сетей значение по умолчанию (255.255.255.255) может вызвать ошибку. Данное значение необходимо установить, так как в некоторых конфигурациях сетей значение по умолчанию (255.255.255.255) может вызвать ошибку. Например, если локальный IP адрес компьютера 192.168.1.15, то широковещательный адрес скорее всего будет 192.168.1.255.

bios. scope – очень редко, но иногда NetBIOS предоставляет “scope id”, чтобы попытаться маскировать группу машин одной и той же сети. Если в локальной сети используется данная опция, то необходимо установить ее значение в данной настройке.

jcifs. smb. client. laddr – IP адрес локального интерфейса, с которым должен связаться клиент (система мониторинга), если он отличается от значения по умолчанию. Например, если клиент использует dial-up соединение, то значение этой настройки – IP адрес PPP (Point-To-Point protocol) интерфейса.

bios. laddr – IP адрес локального интерфейса, с которым должен связаться клиент, если он отличается от значения по умолчанию.

bios. lmhosts – путь к lmhosts файлу, содержащему карту IP адрес – имя компьютера. Формат данного файла идентичен формату файла lmhosts, используемому в ОС Windows. Простейший пример данного файла:

# Это комментарий

192.168.1.15 nano

192.168.1.16 angus

jcifs. smb. client. disablePlainTextPasswords – незашифрованные пароли не должны использоваться и отключены по умолчанию. Но если существует необходимость в их использовании, установите значение данной настройки в false.

jcifs. encoding – если локальная кодировка символов на сервере не MS-DOS Latin-1, то значение данной настройки – используемая на сервере кодировка символов (например, сp1251 – кириллица Windows). Если не установить корректное значение для данной настройки, то имена доступных сетевых ресурсов, пароли, а также имена файлов и директорий не будут обработаны должным образом. Просмотрите список поддерживаемых кодировок и обратите внимание на те, которые относятся к MS-DOS. По умолчанию значение данного свойства cp860 (MS-DOS Latin1).

jcifs.resolveOrder – разделенный запятыми список идентификаторов методов разрешения имен, которые указывают, какие методы и в каком порядке будут использованы для разрешения имен компьютеров. Возможные идентификаторы: LMHOSTS, WINS, BCAST, DNS. Порядок по умолчанию resolveOrder=LMHOSTS, WINS, BCAST, DNS, или resolveOrder=LMHOSTS, BCAST, DNS если не указано значение настройки bios. wins.

Для большинства сетей данных настроек будет достаточно для корректной работы системы мониторинга. Но если в локальной сети пользователя используются какие-то специфические настройки, то список всех поддерживаемых системой настроек можной найти по адресу http://jcifs. samba. org/src/docs/api/overview-summary. html.

Натсройка файла urls

Файл urls находится в корневой директории системы. Данный файл должен содержать список всех компьютеров, по которым будет вестись поиск. Структура файла – набор записей (по одной на каждую строку) следующего вида:

smb://host/,

где smb – протокол используемый Java для доступа к ресурсам локальной сети (не изменять);

host – имя или IP адрес компьютера в локальной сети (закрывающая косая черта после имени компьютера ОБЯЗАТЕЛЬНА).

Пример файла urls:

smb://comp1/

smb://server/

smb://192.168.18.204/

smb://mycomp/

Настройка подсистемы индексирования данных

Для того чтобы должным образом настроить подсистему необходимо внести изменения в следующие файлы:

1. nutch-site. xml

2. hadoop-site. xml

Настройка hadoop-site. xml

Файл hadoop-site.xml находится в директории /conf программы. В нем содержится только одна настройка hadoop. tmp. dir. Ее значением должен быть путь к директории, в которой будут храниться временные файлы во время работы системы. В зависимости от количества компьютеров в сети и количества и объема файлов, находящихся в доступных ресурсах на этих компьютеров, размер директории с временными файлами может быть довольно велик, поэтому рекомендуется выбрать диск с большим объемом свободного пространства. По умолчанию значение данной настройки установлено в /tmp/hadoop-${user. name}.

Настройка nutch-site. xml

Файл nutch-site.xml находится в директории /conf программы. Он представляет собой набор настроек, которые регулируют механизм индексации документов и влияют на производительность системы в целом. Далее будут перечислены необходимые настройки с кратким описанием для каждой.

smb.content.limit – размер индексируемого файла в байтах. При указании неотрицательного (>=0) значения содержимое файла, большее указанного в данной настройке, будет отбрасываться. При указании отрицательного значения будет индексироваться все содержимое файла. Большое значение данного свойства уменьшит производительность системы. Рекомендуемое значение не более.

http.max.delays – указывает сколько раз поток будет приостанавливаться при попытке индексации файла. Каждый раз, когда компьютер, на котором находится файл, оказывается занят, поток приостановится на fetcher.server.delay секунд. После http.max.delays попыток система перейдет к индексации следующего файла.

fetcher.server.delay – количество секунд, на которые система приостановится, перед повторным обращением к одному и тому же компьютеру.

plugin. includes – регулярное выражение, перечисляющее имена расширений, используемых системой. Фактически это название текстовых форматов, которые будут индексироваться. Значение по умолчанию parse-(text|html|pdf|msword|rtf). Это означает, что будут индексироваться следующие текстовые документы:

· обычные текстовые файлы (расширение.txt);

· документы Microsoft Word (расширение.doc);

· html файлы (расширение.html и.htm);

· документы в формате RTF (расширение.rtf);

· документы в формате PDF (расширение.pdf).

Если нет необходимости индексировать файлы определенных форматов, то нужно удалить соответствующий тип из данной настройки (вместе с вертикальной чертой).

plugin. excludes – регулярное выражение, перечисляющее имена расширений, которые НЕ следует индексировать системе (имеет тот же формат, что и предыдущая настройка). Для того чтобы индексировались все поддерживаемые форматы, необходимо оставить это поле пустым.

fetcher. store. content – если установлено в значение true в системе будет храниться содержимое документа. Это может быть полезно, если при просмотре результатов поиска добавить возможность просмотреть документ из кэша системы (аналогично данной функции на сайте Google). Однако включение данной опции значительно увеличит объем индекса. Значение по умолчанию false.

fetcher.threads.fetch – количество потоков, которые будут использоваться при индексировании. Это значение также означает максимальное количество запросов к компьютерам, которые будут выполнены в один момент времени (каждый поток обрабатывает один запрос-соединение). Чем больше указанное значение, тем быстрее пройдет процесс индексации, но данная настройка оказывает большое влияние на использование процессорного времени.

fetcher.threads.per.host – максимальное количество потоков, которые будут обращаться к одному и тому же компьютеру в один момент времени. Чем больше указанное значение, тем быстрее пройдет процесс индексации. Но не рекомендуется использовать большие значения, так как это вызывает существенное замедление работы удаленного компьютера.

db. default. fetch. interval – количество дней, через которое документ будет снова проиндексирован.

Настройка подсистемы поиска по индексу

Для работы подсистемы поиска по индексу необходимо скопировать содержимое директории (на саму директорию, с именно содержимое) ToTomcat из директории системы мониторинга в папку webapps сервера Apache Tomcat. После чего необходимо отредактировать файл /nutch/Web-INF/classes/nutch-site.xml. В данном файле нужно изменить настройку searcher.dir. Ее значение – путь к директории, в которой хранится индекс (см. Запуск приложения). Значение по умолчанию – директория crawl в каталоге системы мониторинга.

Запуск приложения

Перед тем как искать необходимую информацию в локальной сети, используя веб-интерфейс системы, необходимо создать индекс. Под индексом в системе мониторинга понимается набор служебной информации обо всех документах и их содержимом, которые доступны в локальной сети. Создание индекса происходит в несколько этапов:

1. На первом этапе необходимо найти все доступные ресурсы на компьютерах локальной сети, которые были указаны в списке для поиска (см. Настройка файла urls).

2. На втором этапе необходимо найти в ресурсах, полученных в п.1, все документы поддерживаемых форматов (см. Настройка файла nutch-site. xml опция plugin. includes)

3. На третьем этапе анализируется содержимое полученных документов и формируется непосредственно индекс.

Для запуска программы необходимо выполнить следующие действия (если программа установлена на системе под управлением ОС Linux, то все нижеперечисленные действия выполняются в командной строке, если же под управлением ОС Windows, то команды вводятся в консоли Cygwin. Для запуска Cygwin достаточно дважды щелкнуть на его иконке):

1. Перейти в директорию, в которой установлена программа.

2. В командной строке ввести следующую команду

bin/nutch crawl urls –dir crawl –depth 7

где bin/nutch crawl – скрипт, который запускает механизм индексации,

urls – файл, содержащий список компьютеров, по которым будет вестись поиск

-dir – параметр скрипта, который указывает, где будет храниться создаваемый индекс (в данном примере его значение – crawl, которое является значением по умолчанию). Значение этого параметра должно быть указано в настройке searcher.dir (см. Настройка подсистемы поиска по индексу).

-depth – параметр скрипта, который указывает максимальный уровень вложенности документов в папках, по которым будет происходить индексация. Например, документ mydoc.txt находится в папке (открытом ресурсе) mysharename, которая находится на компьютере mycomp (т. е. адрес этого документа будет //mycomp/mysharename/mydoc.txt). Уровень вложенности данного документа равен 3. Другими словами 1 уровень вложенности – это имя компьютера, 2 уровень вложенности – имя доступного ресурса на этом компьютере, 3 уровень – папка или документ, который находится в данном ресурсе и т. д.

После ввода данной команды начнется процесс индексации. Он довольно продолжительный и может занять от нескольких часов до нескольких дней, в зависимости от выставленных настроек и количества компьютеров и документов в сети.

Простейший способ проверить целостность созданного индекса это ввести в командной строке следующую команду (находясь в корневой директории программы):

bin/nutch org. apache. nutch. searcher. NutchBean search_for

где search_for – строка для поиска.

После того как индекс создан, можно запускать веб-приложение (подсистему поиска по индексу). Для этого необходимо запустить сервер Apache Tomcat. Для запуска сервера Tomcat необходимо выполнить следующие действия:

1. Перейти в директорию bin, которая находится в папке, в которой установлен Tomcat.

2. Запустить скрипт startup.sh для Linux или startup.bat для Windows (запускать не из консоли Cygwin).

После запуска Tomcat приложение готово к использованию. Чтобы проверить необходимо открыть Internet Explorer и ввести адрес http://localhost:8080/nutch/en. На экране должна отобразиться страница для поиска.

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы