xi | 0,5 | 1,5 | 2,5 | 3,5 | 4,5 | 5,5 | 6,5 | 7,5 | 8,5 |
ni | 1 | 2 | 3 | 6 | 6 | 6 | 3 | 2 | 1 |
4 Дисперсионный анализ
4.1 Постановка задачи
Изменчивость геологических показателей вызывается одновременным действием целого ряда природных факторов. Во многих случаях возникает необходимость оценить меру влияния отдельных факторов и их взаимодействий на изменение исследуемой величины. Возможность разделения суммарного влияния всех факторов (изучаемых и неизвестных) на отдельные составляющие основана на аддитивном свойстве статистической дисперсии: если на случайную величину Х действуют взаимно независимые факторы, то общую дисперсию значений этой случайной величины можно представить в виде суммы дисперсий, каждая из которых обусловлена влиянием учтенных (изучаемых) и неизвестных (остаточная дисперсия) факторов.
Таким образом, дисперсионный анализ - это статистический метод исследования выборочных данных, который проводится с целью выявления и оценки степени влияния на изучаемую случайную величину (геолого-экологический показатель) различных одновременно действующих геологических факторов. В основе дисперсионного анализа лежит такое разложение общей изменчивости выборочных данных, при котором удается отделить изменчивость, связанную с некоторыми фиксируемыми, замеряемыми исследователем факторами, от изменчивости, неконтролируемой в данном эксперименте. Задачей дисперсионного анализа является доказательство существенности влияния изучаемых факторов на геологический показатель (случайную величину).
Решение о влиянии определенного фактора или группы факторов на изменчивость изучаемого показателя основано на группировке его замеров по факторам и их уровням, проверке гипотезы о статистически незначимом различии между дисперсией, обусловленной проверяемыми факторами, и остаточной (случайной) дисперсией, вызванной неучтенными факторами. Если гипотеза отвергается, то делается вывод о том, что данный фактор оказывает существенное влияние на изменение изучаемого свойства геологического объекта.
В зависимости от количества учитываемых факторов различают однофакторный, двухфакторный и многофакторный дисперсионный анализ. Каждый фактор представляет собой переменную величину, значения которой задаются несколькими точечными (дискретный фактор) либо интервальными (непрерывный фактор) значениями и называются уровнями факторов. Они обозначаются 1, 2, 3 и т. д., в зависимости от известного числа уровней изменения фактора.
Значения случайной величины принято обозначать через xik, xijk и т. д. Последний индекс (k) всегда обозначет номер наблюдения, остальные индексы указывают, на каком уровне каждого из факторов (i,j) наблюдается соответствующее значение случайной величины. Если количество наблюдений на каждом уровне всех факторов одинаково, то дисперсионный анализ называется равномерным, если различное - неравномерным.
Как и при решении многих задач статистическими методами, при дисперсионном анализе используется метод проверки статистических гипотез. Формулируется предположение (нулевая гипотеза Н0) о том, что фактор или их взаимодействие не оказывают существенного влияния на изменение величины Х. Проверка нулевой гипотезы проводится с помощью F-критерия Фишера: F=S2A: S2z; F=S2AB: S2z и т. д., где S2A, S2AB, - дисперсии, обусловленные фактором А или взаимодействием факторов АВ; а S2z - случайная дисперсия, обусловленная неучтенными факторами. Вычисленное значение F-критерия сравнивают с табличным Fα (fi, fz) при заданном уровне значимости и имеющихся числах степеней свободы fi и fz . Если Fэмп> Fα гипотеза Н0 отвергается. С вероятностью p=1-α можно утверждать, что фактор или взаимодействие факторов оказывают существенное влияние на изменение случайной величины.
Надежная статистическая оценка вклада изучаемых факторов возможна лишь при выполнении следующих условий:
· изучаемые факторы должны быть независимыми;
· распределение выборочных данных соответствует нормальному закону распределения;
· дисперсии показателя на разных уровнях одного и того же фактора однородны и существенно не различаются.
Если первое из этих условий не будет выполнено, то оценить влияние каждого из факторов окажется невозможным. Требование нормальности выборочного распределения допускает некоторые отклонения, так как критерий Фишера применим и к другим распределениям: x=lgx; x=lg(x±a); x=1:x; x=1:
; x=xa, если их путем преобразований удается привести к нормальному. В противном случае можно воспользоваться непараметрическими критериями.
Однородность дисперсий не должна нарушаться и проверяется с помощью критерия Кохрена:
; (4.1)
где S2max - наибольшая проверяемая дисперсия; k - число проверяемых дисперсий. Если вычисленное значение меньше табличного при числе степеней свободы fi=ni-1 (ni - число данных, по которым вычислена проверяемая дисперсия), то дисперсии однородны.
4.2 Однофакторный дисперсионный анализ
Пусть случайная величина Х изменяется под действием одного известного фактора А, варьирующего на k уровнях. На каждом из них сделано n наблюдений. Каждое наблюдение обозначается как xij, где i - номер наблюдения (i=1,2,... n), а j - номер уровня фактора (j=1,2,... k). В общем виде исходная информация может быть записана в виде следующей таблицы:
Таблица 4.1
Номер наблюдения | Уровень фактора | |||
А1 | А2 | ... | Аk | |
1 | x11 | x12 | ... | x1k |
2 | x21 | x22 | ... | x2k |
. | . | . | ... | |
. | . | . | ... | |
. | . | . | ... | |
n | xn1 | xn1 | ... | xnk |
Групповые средние | _ х1 | _ х2 | ... | _ хk |
По этим данным рассчитываются следующие статистики:
· общая сумма квадратов отклонений наблюдаемых значений признака от общей средней
:
; (4.2)
· факторная сумма квадратов отклонений групповых средних от общей средней, характеризующая рассеяние между группами:
; (4.3)
· остаточная сумма квадратов отклонений наблюдаемых значений от своей групповой средней, характеризующая рассеяние внутри групп:
; (4.4)
· общая, факторная и остаточная дисперсии:
(4.5)
· значение критерия Фишера:
(4.6)
Значение критерия Фишера сравнивается с критическим для заданного уровня значимости a и числа степеней свободы (k-1) и k(n-1).
При неравномерном однофакторном дисперсионном анализе, когда количество наблюдений на уровне А1 равно n1 , на уровне А2 равно n2, ..., на уровне Аk равно nk , а общее их число равно
, меняются формулы для факторной:
(4.7)
и остаточной дисперсий:
Остальные вычисления выполняются как и при равномерном анализе. Используя равенство: Собщ=Сфакт+Сост можно упростить вычисления.
Пример. При изучении гидротермального свинцово-цинкового месторождения в гранитах высказано предположение, что на интенсивность процесса рудоотложения влияла степень предрудного метасоматического изменения пород. Для проверки этой гипотезы результаты опробования проб на свинец по 43 разведочным пересечениям были разделены на три группы: в слабо измененных (уровень А1), в средне измененных (уровень А2) и сильно измененных (уровень А3) гранитах. Исходные данные и расчеты по схеме однофакторного анализа приведены в таблице 4.2.
Таблица 4.2
№ замера i | Уровни фактора, j | ||||||||
А1 | А2 | А3 | |||||||
xi1 | (xi1- | (xi1- | xi2 | (xi2- | (xi2- | xi3 | (xi3- | (xi3- | |
1 | 1,17 | 0,56 | 0,12 | 2,28 | 0,13 | 0,08 | 1,80 | 0,01 | 0,22 |
2 | 1,52 | 0,16 | 0,00 | 2,46 | 0,29 | 0,22 | 2,38 | 0,21 | 0,01 |
3 | 1,90 | 0,00 | 0,15 | 0,88 | 1,08 | 1,23 | 2,62 | 0,49 | 0,12 |
4 | 1,76 | 0,03 | 0,06 | 2,03 | 0,01 | 0,00 | 2,91 | 0,98 | 0,41 |
5 | 1,54 | 0,14 | 0,00 | 1,22 | 0,49 | 0,59 | 1,60 | 0,10 | 0,45 |
6 | 0,63 | 1,66 | 0,77 | 2,29 | 0,14 | 0,09 | 2,83 | 0,83 | 0,31 |
7 | 2,30 | 0,14 | 0,62 | 1,80 | ,001 | 0,04 | 2,13 | 0,04 | 0,02 |
8 | 1,32 | 0,36 | 0,04 | 1,79 | 0,02 | 0,04 | 2,06 | 0,02 | 0,04 |
9 | 0,94 | 0,96 | 0,32 | 1,61 | 0,10 | 0,14 | 2,23 | 0,10 | 0,00 |
10 | 1,15 | 0,59 | 0,13 | 2,30 | 0,14 | 0,10 | 3,06 | 1,30 | 0,62 |
11 | 0,75 | 1,37 | 0,58 | 2,60 | 0,46 | 0,37 | 1,86 | 0,00 | 0,17 |
12 | 2,49 | 0,32 | 0,96 | 1,76 | 0,03 | 0,05 | 1,92 | ||
13 | 2,14 | 0,05 | 0,40 | 2,14 | 0,05 | 0,02 | 2,16 | ||
14 | 1,62 | 0,09 | 0,01 | 2,73 | 0,66 | 0,55 | 2,27 | ||
15 | 1,40 | 0,27 | 0,01 | ||||||
S | 22,63 | 6,70 | 4,17 | 27,89 | 3,61 | 3,52 | 31,83 | 4,26 | 2,50 |
=1,51
=1,99
=2,27
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |


