Контент-анализ ресурсов Интернет
Сегодня весьма актуальной является задача мониторинга ресурсов Internet, которая тесно связана с достаточно популярным в последние десятилетия контент-анализом. Это перспективное направление развития систем сетевой интеграции рассматривается сегодня многими экспертами как контент-мониторинг, появление которого вызвано, прежде всего, задачей систематического отслеживания тенденций и процессов в постоянно обновляемой сетевой информационной среде. Контент-мониторинг — это содержательный анализ информационных потоков с целью получения необходимых качественных и количественных срезов, который производится постоянно, т. е. на протяжении не определяемого заранее промежутка времени. Важнейшей теоретической основой контент-мониторинга является контент-анализ, — понятие, достаточно "заезженное" социологами.
Контент-анализ начинался как количественно-ориентированный метод анализа текстов для изучения массовых коммуникаций. Впервые этот метод был применен в 1910 году социологом Максом Вебером (Max Weber), чтобы проанализировать охват прессой политических акций в Германии (рис. 5.2). Американский исследователь средств коммуникации Гарольд Лассвелл (Harold Lasswell) в 30-40-е годы использовал подобную методику для изучения содержимого пропагандистских сообщений военного времени. В 1943 году Абрахам Каплан (Abraham Kaplan) увеличил фокус контент-анализа от статистической семантики (/значения текстов) политических дискуссий до анализа значений символов (семиотики). Во время Второй мировой войны растущая популярность семиотики способствовала использованию качественно-ориентированного контент-анализа для изучения "идеологических" аспектов в таких жанрах, как телевизионные шоу и коммерческая реклама. Ряд современных исследований с применением методологии контент-анализа включает, наряду с анализом текста, и анализ изображений.
Начиная с 60-х годов, с появлением средств авто
матизации и текстов в электронном виде, получил на
чальное развитие контент-анализ информации боль
ших объемов — баз данных и интерактивных медиа-
средств. Традиционное "политическое" использование
современных технологий контент-анализа дополнено
неограниченным перечнем рубрик и тем, охватываю
щих производственную и социальную сферы, бизнес и
финансы, культуру и науку, что сопровождается
большим количеством разнородных программных
комплексов. При этом выделилось направление, полу
чившее самостоятельное развитие — Data Mining, все
еще не имеющее устойчивого русского термина-
эквивалента. Так, даже выше в этой главе использова
лись сразу два перевода этого термина: "добыча дан - Рис. 5.2. Макс Вебер
ных" и "глубинный анализ данных". ()
Под Data Mining понимается механизм обнаружения в потоке данных интересных новых знаний, таких как модели, конструкции, ассоциации, изменения, аномалии и структурные новообразования. Большой вклад в развитие контент-анализа внесли психологические исследования в области феноменологии, ведущая идея которой заключается в обращении к каждодневному миру через различные явления (phenomena) в фактических ситуациях. С феноменологией неразрывно связаны имена ее основателя Эдмунда Хассерла (Edmund Husserl) и нашего современника Амадео Джиорджи (Amadeo Giorgi).
Однозначная трактовка понятий необходима, прежде всего, в технических системах. Развитие технологических систем невозможно без стандартизации. В качестве примера можно привести операционную систему UNIX, определение стандартов на которую в рамках ISO (POSIX) привело к преобладанию клонов этой системы на серверных платформах. Понятие же контент-анализа, имеющее корни в психологии и социологии, сегодня пока не имеет однозначного определения. Это порождает ряд проблем, важнейшая из которых заключается в том, что программные системы, построенные на основе различных подходов к контент-анализу, будут несовместимы. Приведем лишь некоторые существующие определения контент-анализа.
• Контент-анализ — это методика объективного качественного и систематического изучения содержания средств коммуникации (Д. Джери, Дж. Джери).
• Контент-анализ — это систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника (Д. Мангейм, Р. Рич).
• Контент-анализ — это качественно-количественный метод изучения документов, который характеризуется объективностью выводов и строгостью процедуры и состоит в квантификационной обработке текста с дальнейшей интерпретацией результатов (В. Иванов).
• Контент-анализ состоит в нахождении в тексте определенных содержательных понятий (единиц анализа), выявлении частоты их встречаемости и соотношения с содержанием всего документа (Б. Краснов).
• Контент-анализ — это исследовательская техника для получения результатов путем анализа содержания текста о состоянии и свойствах социальной действительности (Е. Таршис). Р
Большинство из приведенных определений конструктивны, т. е. являются процедурными. Из-за разных начальных подходов они порождают различные, а порой и противоречащие друг другу алгоритмы. Принятые в современной литературе различные подходы к пониманию контент-анализа поддаются полностью оправданной критике. Так, высказываются сомнения в информационной насыщенности частотных характеристик в плане определения элементов, весомых с точки зрения содержания. Также подчеркивается игнорирование роли контекста. Однако, несмотря на многообразие трактовок контент-анализа, большое прикладное значение методологии все же позволяет избежать многих противоречий. Объединение средств и методов, их естественный отбор путем многократной оценки полученных результатов позволяют выделять и подтверждать знания, выявлять фактическую силу и полезность инструментария.
Диапазон методов и процедур, касающихся самого процесса контент-анализа, весьма широк. К примеру, при подготовке исследования выполняются следующие действия:
• описание проблемной ситуации, поиск цели исследования;
• уточнение объекта и предмета исследования;
• смысловое уточнение понятий;
• эмпирическая интерпретация понятий;
• описание процедур регистрации свойств и явлений;
• предварительный целостный анализ объекта;
• определение общего плана исследования;
• определение типа выборки и т. д. Методы сбора данных также многообразны:
• наблюдение;
• анкетный опрос;
• интервью;
• телефонный опрос;
• накопление совокупности писем;
• получение потока документов Сети.
Для отбора информации применяются такие методы:
• гнездовой;
• квотная выборка;
• неслучайная выборка;
f» метод нетипичных представителей;
• метод "снежного кома";
• стихийная выборка;
• случайная выборка;
• одно- и многоступенчатая выборка;
• районированная (расслоение) выборка;
• систематическая выборка и т. д.
В контент-анализе применяются такие математические методы, как:
• дисперсионный анализ для выявления влияния отдельных, независимых факторов на наблюдаемый признак;
• кластерный анализ для классификации объектов и описывающих их признаков;
• логлинейный анализ для статистической проверки гипотезы о системе одновременных парных и множественных взаимосвязей в группе признаков;
• причинный анализ для моделирования причинных отношений между признаками с помощью систем статистических уравнений;
• регрессионный анализ для исследования регрессионной зависимости между зависимыми и независимыми признаками;
• факторный анализ для получения обобщенной информации о структуре связи между наблюдаемыми признаками изучаемого объекта на основе выделения скрытых факторов;
• корреляционный анализ для выявления зависимости между числовыми случайными величинами, одна из которых зависит и от ряда других случайных факторов.


