Каждое из этих уравнений имеет решение, причём единственное, что следует из допущения б). Решениями уравнений являются квантили порядков http://*****/t/9.files/image095.gif и http://*****/t/9.files/image097.gif распределения статистики http://*****/t/9.files/image075.gif соответственно: http://*****/t/9.files/image099.gifhttp://*****/t/9.files/image101.gif

Обычно при определении http://*****/t/9.files/image077.gif и http://*****/t/9.files/image079.gif полагают http://*****/t/9.files/image103.gif. Это объясняется тем, что для симметричных распределений статистики http://*****/t/9.files/image075.gif (например, http://*****/t/9.files/image105.gif или http://*****/t/9.files/image107.gif) такой выбор даёт доверительный интервал наименьшей длины. А для несимметричных распределений (http://*****/t/9.files/image109.gifhttp://*****/t/9.files/image111.gif) длина интервала будет близкой к минимальной и случайные выбросы статистики http://*****/t/9.files/image075.gif в обе стороны от интервала http://*****/t/9.files/image113.gif будут равновероятны.

Итак, выбираем http://*****/t/9.files/image099.gif и http://*****/t/9.files/image101.gif, в результате получаем

http://*****/t/9.files/image115.gif. (4.6.2)

4. Решим неравенства

http://*****/t/9.files/image117.gif(4.6.3)

относительно параметра http://*****/t/9.files/image006.gif:

http://*****/t/9.files/image119.gif. (4.6.4)

В силу допущения г) неравенства (4.6.3) разрешимы в виде (4.6.4) и, кроме того, неравенства (4.6.3) и (4.6.4) равносильны. Поэтому с учётом (4.6.2) можно записать:

http://*****/t/9.files/image121.gif,

т. е. неравенства определяют интервальную оценку параметра http://*****/t/9.files/image006.gif, см. (4.6.1).

Окончательно, по выборке http://*****/t/9.files/image026.gif находим доверительный интервал

http://*****/t/9.files/image123.gif.

Отметим, что для квантилей симметричных распределений статистики http://*****/t/9.files/image075.gif справедливо равенство http://*****/t/9.files/image125.gif, поэтому для таких распределений полагают http://*****/t/9.files/image127.gif и http://*****/t/9.files/image129.gif.

Итак, план построения доверительного интервала для параметра http://*****/t/9.files/image006.gif сводится к выполнению следующих действий.

1. Выбор доверительной вероятности http://*****/t/9.files/image010.gif.

2. Подбор или построение центральной статистики http://*****/t/9.files/image075.gif с известным законом распределения и нахождение квантилей http://*****/t/9.files/image131.gif и http://*****/t/9.files/image133.gif распределения этой статистики, если это распределение несимметрично или квантили http://*****/t/9.files/image133.gif, если оно симметрично.

НЕ нашли? Не то? Что вы ищете?

3. Решение неравенств http://*****/t/9.files/image135.gif относительно неизвестного параметра http://*****/t/9.files/image006.gif, что приводит к искомому доверительному интервалу

http://*****/t/9.files/image137.gif

(если распределение статистики симметрично, то http://*****/t/9.files/image125.gif).

При построении доверительных интервалов для параметров нормально распределённых генеральных совокупностей обычно используются статистики, перечисленные в табл. 4.5.1.

13

Понятие корреляции является одним из основных понятий теории вероятностей и математической статистики, оно было введено Гальтоном и Пирсоном.

Закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследования относится к задачам стохастического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный и ковариационный анализы. В данном разделе рассмотрена теснота статистической связи между анализируемыми переменными, т. е. задачи корреляционного анализа.

В качестве измерителей степени тесноты парных связей между количественными переменными используются коэффициент корреляции (или то же самое "коэффициент корреляции Пирсона") и корреляционное отношение.

Пусть при проведении некоторого опыта наблюдаются две случайные величины $X$ и $Y$, причем одно и то же значение $x$ встречается $n_{х}$ раз, $у - n_{у}$ раз, одна и та же пара чисел ($х, у)$наблюдается $n_{ху}$ раз. Все данные записываются в виде таблицы, которую называют корреляционной.

Выборочная ковариация $k(X, Y)$ величин $X$ и $Y$ определяется формулой

\begin{displaymath}

k(X,Y) = {\displaystyle 1\over\displaystyle n}\sum {(x_i - x^\ast )(y_i - y^\ast )n_{xy} } ,

\end{displaymath}

где $n = \sum n_{ху}$, а $х^{\ast }$$y^{\ast}$ - выборочные средние величин $Х$ и $Y$. При небольшом количестве экспериментальных данных $k(X, Y)$ удобно находить как полный вес ковариационного графа:

\includegraphics{D:/html/work/link1/metod/met12/ris101.eps}

Рис. 101

Выборочный коэффициент корреляции находится по формуле

\begin{displaymath}

r(X,Y) = {\displaystyle k(X,Y)\over\displaystyle \sigma _х^\...

...ast \over\displaystyle n\sigma _х^\ast \cdot \sigma _у^\ast },

\end{displaymath}

где $\sigma _х^\ast , \sigma _у^\ast $ - выборочные средние квадратические отклонения величин $Х$ и $Y$.

Выборочный коэффициент корреляции $r(X,Y)$ показывает тесноту линейной связи между $X$ и $Y$: чем ближе $\vert r(X, Y)\vert $ к единице, тем сильнее линейная связь между $Х$ и $Y$.

Пример 171. Среднемесячная заработная плата (тыс. руб.) в Ярославской области в годах составила по отраслям:

отрасль

ЖКХ

здравоохранение

наука

образование

транспорт

промышленность

2001 год

2

1,5

2,7

1,3

3,2

3,2

2002 год

3

2,8

3,6

2,4

4,9

4,5

Найдите выборочный коэффициент корреляции для заработной платы в указанные годы.

Решение. 1). Найдем выборочные средние

\begin{displaymath}

х^\ast = {\displaystyle 1\over\displaystyle 6}(2 + 1,5 + 2,7 + 1,3 + 3,2 + 3,2) \approx 2,3; \qquad у^\ast \approx 3,5.

\end{displaymath}

2). Вычислим выборочную ковариацию

\begin{displaymath}

\begin{array}{l}

k(X,Y) = {\displaystyle 1\over\displaystyl...

...3) \cdot (4,5 - \left. {3,5)} \right] = 0,668. \\

\end{array}\end{displaymath}

3). Найдем выборочные средние квадратические отклонения:

\begin{displaymath}

\begin{array}{l}

D_х^\ast = {\displaystyle 1\over\displayst...

...;

\\

D_у^\ast = 0,82; \sigma _у^\ast = 0,91. \\

\end{array}\end{displaymath}

4). Вычислим теперь выборочный коэффициент корреляции

\begin{displaymath}

r(X,Y) = {\displaystyle k(X,Y)\over\displaystyle \sigma _х^\...

...ystyle 0,668\over\displaystyle 0,765 \cdot 0,91} \approx 0,96.

\end{displaymath}

Поскольку $r(X,Y)$ достаточно близко к $1$, то между заработной платой по отраслям в 2001 и 2002 годах существовала почти линейная зависимость (зарплата в 2002 году по каждой отрасли увеличилась примерно в 1,5 раза).

14

Корреляционная зависимость.

Условимся обозначать через Х независимую переменную. а через У—зависимую переменную.

Зависимость величины Y от Х называется функциональной. если каждому значению величины Х соответствует единственное значение величины У.

Обратим внимание на то, что если Х—детерминированная величина (т. е. принимающая вполне определенные значения), то и функционально зависящая от нее величина У тоже является детерминированной; если же X— случайная величина, то и У также случайная величина.

Однако гораздо чаще в окружающем нас мире имеет место не функциональная, а

стохастическая, или вероятностная, зависимость, когда каждому фиксированному значению независимой переменной Х соответствует не одно, а множество значений переменной У, причем сказать заранее, какое именно значение примет величина У, нельзя.

Более частое появление такой зависимости объясняется действием на результирующую переменную не только контролируемого или контролируемых факторов (в данном случае таким контролируемым фактором является переменная X), а и многочисленных неконтролируемых случайных факторов. В этой ситуации переменная У является случайной величиной. Переменная же Х может быть как детерминированной, так и случайной величиной.

Если при изменении одной из величин изменяется среднее значение другой, то стохастическая зависимость называется корреляционной.

Приведем пример такой зависимости: пусть У – урожай зерна, Х – количество удобрений. С одинаковых по площади участков при равном количестве внесенных удобрений снимают разный урожай. Т. е. У не является функцией от Х. это объясняется влиянием случайных факторов: осадки, температура и т. п. Но опыт показывает что средний урожай является функцией от количества удобрений, У связан с Х корреляционной зависимостью: изменяя количество вносимых удобрений, изменяется и средний урожай, т. е. математическое ожидание величины У изменяется при изменении значения Х. Такое математическое ожидание называется условным и обозначается М( У/ Х= х) и читается: математическое ожидание СВУ при условии, что Х =х.

Тогда можно считать: корреляционная зависимость имеет место, если при изменении х изменяется условное математическое ожидание У.

Аналогично вводится понятие условного математического ожидания для СВХ.

g(x) =М(У/Х=х) и f(y) = М(Х/У=у) – называются функциями регрессии, а линию на плоскости, соответствующую этому уравнению – линией регрессии соответственно У на Х и Х на У. Эта линия показывает, как в среднем зависит У от Х или Х от У.

Корреляционной зависимостью $Y$ от $Х$ называют функциональную зависимость условной средней $у_х^\ast $ от $х$.

Корреляционная зависимость может быть линейной и криволинейной. В случае линейной корреляционной зависимости выборочное уравнение прямой линии регрессии $Y$ на $Х$ имеет вид:

\begin{displaymath}

у_х^\ast - y^\ast = {\displaystyle k(X,Y)\over\displaystyle D_х^\ast }(x - x^\ast ).

\end{displaymath}

Параметры $a $ и $ b$ уравнения прямой $у_х^\ast = ax + b$ линии регрессии $Y$ на $Х$ можно находить по методу наименьших квадратов из системы уравнений

\begin{displaymath}

\left\{ {\begin{array}{l}

n(x^\ast )^2a + nx^\ast b = \sum {n_{xy} xy} \\

x^\ast a + b = y^\ast \\

\end{array}} \right.

\end{displaymath}

Пример 173. Построить прямую регрессии мировых рекордов по прыжкам с шестом от соответствующего года, если нам известна динамика результатов в ХХ веке.

1912 г.

1936 г.

1972 г.

1980 г.

1988 г.

1994 г.

Стокгольм,

Берлин,

Мюнхен,

Москва,

Сеул,

Сетриере

Гарри Бебкок (США)

Эрл Мидоуз (США)

Волфганг Нордвик (ГДР)

Владислав Казакевич (Польша)

Сергей Бубка (СССР)

Сергей Бубка (Украина)

3,95

4,35

5,50

5,78

5,90

6,14

Решение. 1). Запишем в таблицу соответствие результатов некоторых мировых рекордов по прыжкам с шестом и годы их установления в ХХ веке.

$Х$ = {год рекорда}

(19)12

36

72

80

88

94

$Y$ = {высота рекорда}

395

435

550

578

590

614

2). $х^\ast = 64; \quad у^\ast = {\displaystyle 1\over\displaystyle 6}(395 + 435 + 550 + 578 + 590 + 614)

= 527$(см.)

3). $k(X,Y) = {\displaystyle 1\over\displaystyle 6}\left[ {\cdot + ...

...) + 8 \cdot 23 + 16 \cdot 51 + 24 \cdot 63 + 30 \cdot 87} \right] \approx

2427;$

4). $D_х^\ast = {\displaystyle 1\over\displaystyle 6}\left[ {^2 + ^2 + 8^2 + 16^2 + 24^2

+ 30^2} \right] \approx 880;$

5). Искомое уравнение прямой регрессии выглядит следующим образом

\begin{displaymath}

y_x^\ast - 527 = {\displaystyle 2427\over\displaystyle 880}(x - 64),

\end{displaymath}

или $y_x^\ast = 2.75x + 351.$

По полученной прямой регрессии можно на вероятностном языке предсказывать уровень мировых рекордов по прыжкам с шестом, так, в 2010 году 
($х$ = 110) получаем ожидаемый прыжок на высоту примерно в 6 м 53 см. (поживем - увидим!)

В том случае, когда исследуется связь между несколькими признаками, то корреляцию называют множественной и она задается всеми коэффициентами парных корреляций, которые записываются в корреляционную матрицу.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7