Контент-анализ ресурсов Интернет

Сегодня весьма актуальной является задача мониторинга ресурсов Internet, которая тесно связана с достаточно популярным в последние десятилетия кон­тент-анализом. Это перспективное направление развития систем сетевой инте­грации рассматривается сегодня многими экспертами как контент-мониторинг, появление которого вызвано, прежде всего, задачей систематического отслежи­вания тенденций и процессов в постоянно обновляемой сетевой информационной среде. Контент-мониторинг — это содержательный анализ информационных по­токов с целью получения необходимых качественных и количественных срезов, который производится постоянно, т. е. на протяжении не определяемого заранее промежутка времени. Важнейшей теоретической основой контент-мониторинга является контент-анализ, — понятие, достаточно "заезженное" социологами.

Контент-анализ начинался как количественно-ориентированный метод анали­за текстов для изучения массовых коммуникаций. Впервые этот метод был при­менен в 1910 году социологом Максом Вебером (Max Weber), чтобы проанализи­ровать охват прессой политических акций в Германии (рис. 5.2). Американский исследователь средств коммуникации Гарольд Лассвелл (Harold Lasswell) в 30-40-е годы использовал подобную методику для изучения содержимого пропагандист­ских сообщений военного времени. В 1943 году Абрахам Каплан (Abraham Kaplan) увеличил фокус контент-анализа от статистической семантики (/значения текстов) политических дискуссий до анализа значений символов (семиотики). Во время Второй мировой войны растущая популярность семиотики способствовала использованию качественно-ориентированного контент-анализа для изучения "идеологических" аспектов в таких жанрах, как телевизионные шоу и коммер­ческая реклама. Ряд современных исследований с применением методологии контент-анализа включает, наряду с анализом текста, и анализ изображений.

Начиная с 60-х годов, с появлением средств авто­
матизации и текстов в электронном виде, получил на­
чальное развитие контент-анализ информации боль­
ших объемов — баз данных и интерактивных медиа-
средств. Традиционное "политическое" использование
современных технологий контент-анализа дополнено
неограниченным перечнем рубрик и тем, охватываю­
щих производственную и социальную сферы, бизнес и
финансы, культуру и науку, что сопровождается
большим количеством разнородных программных
комплексов. При этом выделилось направление, полу­
чившее самостоятельное развитие — Data Mining, все
еще не имеющее устойчивого русского термина-
эквивалента. Так, даже выше в этой главе использова­
лись сразу два перевода этого термина: "добыча дан - Рис. 5.2. Макс Вебер
ных" и "глубинный анализ данных". ()

Под Data Mining понимается механизм обнаружения в потоке данных интересных новых знаний, таких как модели, конструкции, ас­социации, изменения, аномалии и структурные новообразования. Большой вклад в развитие контент-анализа внесли психологические исследования в об­ласти феноменологии, ведущая идея которой заключается в обращении к каждо­дневному миру через различные явления (phenomena) в фактических ситуациях. С феноменологией неразрывно связаны имена ее основателя Эдмунда Хассерла (Edmund Husserl) и нашего современника Амадео Джиорджи (Amadeo Giorgi).

Однозначная трактовка понятий необходима, прежде всего, в технических системах. Развитие технологических систем невозможно без стандартизации. В качестве примера можно привести операционную систему UNIX, определение стандартов на которую в рамках ISO (POSIX) привело к преобладанию клонов этой системы на серверных платформах. Понятие же контент-анализа, имеющее корни в психологии и социологии, сегодня пока не имеет однозначного опреде­ления. Это порождает ряд проблем, важнейшая из которых заключается в том, что программные системы, построенные на основе различных подходов к кон­тент-анализу, будут несовместимы. Приведем лишь некоторые существующие определения контент-анализа.

•  Контент-анализ — это методика объективного качественного и систематиче­ского изучения содержания средств коммуникации (Д. Джери, Дж. Джери).

•  Контент-анализ — это систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника (Д. Мангейм, Р. Рич).

•  Контент-анализ — это качественно-количественный метод изучения доку­ментов, который характеризуется объективностью выводов и строгостью процедуры и состоит в квантификационной обработке текста с дальнейшей интерпретацией результатов (В. Иванов).

•  Контент-анализ состоит в нахождении в тексте определенных содержа­тельных понятий (единиц анализа), выявлении частоты их встречаемости и соотношения с содержанием всего документа (Б. Краснов).

•  Контент-анализ — это исследовательская техника для получения результа­тов путем анализа содержания текста о состоянии и свойствах социальной действительности (Е. Таршис). Р

Большинство из приведенных определений конструктивны, т. е. являются процедурными. Из-за разных начальных подходов они порождают различные, а порой и противоречащие друг другу алгоритмы. Принятые в современной ли­тературе различные подходы к пониманию контент-анализа поддаются полно­стью оправданной критике. Так, высказываются сомнения в информационной насыщенности частотных характеристик в плане определения элементов, весо­мых с точки зрения содержания. Также подчеркивается игнорирование роли контекста. Однако, несмотря на многообразие трактовок контент-анализа, боль­шое прикладное значение методологии все же позволяет избежать многих про­тиворечий. Объединение средств и методов, их естественный отбор путем много­кратной оценки полученных результатов позволяют выделять и подтверждать знания, выявлять фактическую силу и полезность инструментария.

Диапазон методов и процедур, касающихся самого процесса контент-анализа, весьма широк. К примеру, при подготовке исследования выполняются следую­щие действия:

•  описание проблемной ситуации, поиск цели исследования;

•  уточнение объекта и предмета исследования;

•  смысловое уточнение понятий;

•  эмпирическая интерпретация понятий;

•  описание процедур регистрации свойств и явлений;

•  предварительный целостный анализ объекта;

•  определение общего плана исследования;

•  определение типа выборки и т. д. Методы сбора данных также многообразны:

•  наблюдение;

•  анкетный опрос;

•  интервью;

•  телефонный опрос;

•  накопление совокупности писем;

•  получение потока документов Сети.

Для отбора информации применяются такие методы:

•  гнездовой;

•  квотная выборка;

•  неслучайная выборка;

метод нетипичных представителей;

•  метод "снежного кома";

•  стихийная выборка;

•  случайная выборка;

•  одно- и многоступенчатая выборка;

•  районированная (расслоение) выборка;

•  систематическая выборка и т. д.

В контент-анализе применяются такие математические методы, как:

•  дисперсионный анализ для выявления влияния отдельных, независимых факторов на наблюдаемый признак;

•  кластерный анализ для классификации объектов и описывающих их при­знаков;

•  логлинейный анализ для статистической проверки гипотезы о системе од­новременных парных и множественных взаимосвязей в группе признаков;

•  причинный анализ для моделирования причинных отношений между при­знаками с помощью систем статистических уравнений;

•  регрессионный анализ для исследования регрессионной зависимости между зависимыми и независимыми признаками;

•  факторный анализ для получения обобщенной информации о структуре связи между наблюдаемыми признаками изучаемого объекта на основе выделения скрытых факторов;

•  корреляционный анализ для выявления зависимости между числовыми случайными величинами, одна из которых зависит и от ряда других слу­чайных факторов.