, (8.27)

где s - фактическая сумма рангов;

- максимальная сумма рангов.

Этот коэффициент также изменяется в пределах - 1 < t < 1. Он дает несколько более строгую оценку связи нежели коэффициент Спирмена:

.

Это соотношение выполняется при большом числе наблюдений, п > 30, и слабых либо умеренно тесных связях. Для расчета т все единицы ранжируются по признаку х; по ряду другого признака у подсчитывается для каждого ранга число последующих рангов, превышающих данный (их сумму обозначим Р), и число последующих рангов ниже данного (их сумму обозначим Q).

Тогда S = Р - Q. Можно показать, что P+Q= - n(n-1), так что t может быть представлен как

(8.28)

Вычислим коэффициент корреляции рангов Кендалла по данным табл. 8.4:

Ранги по х

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Ранги по у

1

3

5

4

7

9

10

8

2

13

12

11

6

14

16

15

отношение между этими двумя коэффициентами не вполне соответствует упомянутому: коэффициент Спирмена в нашем примере превосходит t не в 1,5 раза, а на 23%.

8.9. Параболическая корреляция

Линейные связи являются основными. Однако встречаются и нелинейные связи, хорошо описываемые параболой, гиперболой и т. д.

Уравнение регрессии в форме параболы 2-го порядка имеет следующий вид:

Если при линейной связи среднее изменение результативного признака на единицу фактора постоянно по всей области вариации фактора, то при параболической корреляции изменение признака х на единицу признака^ меняется равномерно с изменением величины фактора. В результате связь может даже поменять знак на противоположный, из прямой превратится в обратную, из обратной в прямую. Такой характер связи объективно присущ многим системам. Например, с увеличением дозы удобрений урожайность сель-хозкультур сначала повышается, но если превысить оптимальную величину дозы, то при дальнейшем росте дозы удобрений растения угнетаются и урожайность снижается.

НЕ нашли? Не то? Что вы ищете?

Нормальные уравнения метода наименьших квадратов для параболы 2-го порядка таковы:

Если расчет производится не по индивидуальным данным, а на основе аналитической группировки, то уравнения МНК приобретают следующий вид:

Решая эту систему, получаем значения параметров а, b и с. Показателем тесноты параболической корреляции является корреляционное отношение, вычисляемое как корень квадратный из выражения (8.2).

В качестве примера параболической корреляционной связи рассмотрим зависимость себестоимости молока от продуктивности коров по данным аналитической группировки сельхозпредприятий области (табл. 8.5). В этой же таблице приведены расчетные величины, входящие в уравнения МНК для параболы.

Были получены нормальные уравнения МНК:

136а + 5256 + 2123,4с = 4585,1, 525а+2123.4А + 9017,1с = 17318,1, 2123,4а + 9017,16 + 40199,3с = 68586,4.

Эта парабола имеет точку минимума в фактической области вариации факторного признака. Для нахождения значения фактора, при котором достигается минимальное значение результативного признака, следует приравнять нулю первую производную по х уравнения (8.30):

откуда х = 23,641/4,6498 = 5,084 т молока на корову.

Итак, минимальная себестоимость молока в совокупности предприятий, в условиях периода, к моторому относятся данные, достигалась в среднем при надое молока на корову 5084 кг. Значение фактора х при достижении минимума себестоимости можно назвать оптимальной продуктивностью коров, а сама задача его поиска - это одна из оптимизационных задач, решаемая математико-статистическим методом.

Для измерения тесноты параболической корреляционной связи находим вариацию результативного признака у, объясняемую вариацией фактора х как сумму квадратов отклонений расчетных величин у от средней величины у, взвешенных на число предприятий. Общая сумма квадратов отклонений всех 136 значений у, от средней величины составляет 4624,7. Таким образом согласно формуле (8.1), корреляционное отношение

8.10. Гиперболическая корреляция

Уравнение регрессии в форме гиперболы имеет следующий вид:

Если величина Ъ положительна, то при увеличении значений факторного признака х значения результативного признака уменьшаются, причем это уменьшение все время замедляется, и при х -> оо средняя величина признака у будет равна а. Если же параметр Ь отрицателен, то значения результативного признака с ростом фактора возрастают, причем - их рост замедляется, и в пределе при х ® ¥ у̃ = а. Таким образом, гиперболические зависимости характерны для связей, в которых результативный признак не может варьировать неограниченно, его вариация имеет односторонний предел. Например, при освоении нового оборудования его производительность возрастет, но рост замедлится по мере приближения к конструктивно-технологическому пределу производственной мощности агрегата. Совершенствуя двигатель, можно увеличивать его КПД, но тоже не выше предела, допускаемого данным видом преобразования энергии. Таков же характер связи между уровнем душевого дохода х в семье и долей семей, имеющих телевизоры, у; он приближен к пределу (100%) в наиболее обеспеченной группе семей. Нормальные уравнения метода наименьших квадратов для гиперболы таковы:

Легко видеть, что эти уравнения, по существу, те же, что и для линейной связи. Линеаризация гиперболического уравнения достигается заменой 1/х на новую переменную, которую можно обозначить z. Тогда уравнение (8.27) примет вид ỹ = а + bz. Это и следует cделать, вычисляя гиперболу на компьютере, если программа для него не предусматривает автоматического вычисления гиперболических регрессий.

В качестве примера расчета уравнения гиперболической связи рассмотрим влияние среднесуточного прироста живой массы крупного рогатого скота на откорме на себестоимость прироста живой массы в совокупности предприятий области, занимавшихся откормом скота (табл. 8.6).

где х в сотнях граммов

Таблиц а 8.6

Гиперболическая связь себестоимости прироста со

скоростью прироста массы скота

Группы предприятий по среднесуточному приросту массы граммов на 1 голову хi

Число предприятий fj

Средняя себестоимость прироста руб./ц

y̅j

Середина интервалов x'j

сотнях граммов на голову

334-425

22

496

3,8

5,79

1,52

10912

2872

513

425-516

37

425

4,7

7,87

1,67

15725

3346

419

516-607

28

360

5,6

. 5,00

0,89

10080

1800

356

607-698

27

310

6,5

4,15

0,64

8370

1288

310

698-789

9

283

7,4

1,22

0,16

2547

344

275

Итого

123

387

-

24,03

4,88

47634

9650

-

Точечный прогноз по уравнению регрессии при среднесуточном приросте массы животных, равном 900 г, уже достигнутом передовыми хозяйствами, приводит к ожидаемой средней себес-

Следовательно, 67% вариации себестоимости прироста массы скота объяснились вариацией скорости роста массы животных и связанных с ней других факторов, например, чем быстрее растет масса, тем меньше расход кормов на единицу прироста массы.

8.11. Множественное уравнение регрессии

Проблемы множественного корреляционно-регрессионного анализа и моделирования подробно изучаются в специальном курсе того же названия. В курсе «Общая теория статистики» рассматриваются только самые общие вопросы этой сложной проблемы и дается начальное представление о методике построения уравнения множественной регрессии и показателей связи. Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то производят линеаризацию уравнения путем замены или преобразования величины факторного признака.

Общий вид многофакторного уравнения регрессии имеет вид:

где k - число факторных признаков.

Чтобы упростить систему уравнений МНК, необходимую для вычисления параметров уравнения (8.32), обычно вводят величины отклонений индивидуальных значений всех признаков от средних величин этих признаков.

Получаем систему k уравнений МНК:

Решая эту систему, получаем значения коэффициентов условно-чистой регрессии b. Свободный член уравнения вычисляется по формуле

Термин «коэффициент условно-чистой регресии» означает, что каждая из величин bj измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора хj от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируют.

Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины bj. можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты bj. не свободны от примеси влияния факторов, не входящих в уравнение.

Включить все факторы в уравнение регрессии невозможно по одной из трех причин или сразу по ним всем, так как: 1) часть факторов может быть неизвестна современной науке, познание любого процесса всегда неполное; 2) по части известных теоретических факторов нет информации либо таковая ненадежна; 3) численность изучаемой совокупности (выборки) ограничена, что позволяет включить в уравнение регрессии ограниченное число факторов.

Коэффициенты условно-чистой регрессии bj. являются именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или β-коэффициентом.

β-коэффициент при факторе хj, определяет меру влияния вариации фактора хj на вариацию результативного признака у при отвлечении от сопутствующей вариации других факторов, входящих в уравнение регрессии.

Коэффициенты условно-чистой регрессии полезно выразить в виде относительных сравнимых показателей связи, коэффициентов эластичности:

Коэффициент эластичности фактора хj говорит о том, что при отклонении величины данного фактора от его средней величины на 1% и при отвлечении от сопутствующего отклонения других факторов, входящих в уравнение, результативный признак отклонится от своего среднего значения на ej процентов от у̅. Чаще интерпретируют и применяют коэффициенты эластичности в терминах динамики: при увеличении фактора х.на 1% его средней величины результативный признак увеличится на е. процентов его средней величины.

Рассмотрим расчет и интерпретацию уравнения многофакторной регрессии на примере тех же 16 хозяйств (табл. 8.1). Результативный признак - уровень валового дохода и три фактора, влияющих на него, представлены в табл. 8.7.

Напомним еще раз, что для получения надежных и достаточно точных показателей корреляционной связи необходима более многочисленная совокупность.

Таблица 8.7

Уровень валового дохода и его факторы

Номера хозяйств

Валовой доход, руб./ra у

Затраты труда, чел.-дни/га х1

Доля пашни,

% x2

Надой молока на 1 корову,

кг, x3

1

704

265

45,1

. 3422

2

293

193

35,1

1956

3

346

229

69,4

2733

4

420

193

60,2

3254

5

691

225

59,0

3323

6

679

255

63,4

3179

7

457

201

58,1

3073

8

503

208

51,8

3257

9

314

170

73,2

2669

10

803

276

59,0

4235

11

691

188

42,5

3790

12

775

232

50,5

3658

13

584

173

48,6

3801

14

504

183

51,9

3266

15

777

236

58,9

5173

16

1138

265

38,8

5526

Сумма

9679

3492

865,5

56315

Средняя

604,9

218,2

54,1

3520

s

221,9

34,6

10,6

887

v,%

36,7

15,9

19,6

25,2

Таблица 8.8 Показатели уравнения регрессии

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41